AAAI 2026视频扩散模型:基于物理直觉生成科学现象的潜在知识探索
AAAI 2026突破:基于物理直觉的视频扩散模型实现科学现象精准生成

作者 | 论文团队
编辑 | ScienceAI
当前,以Stable Diffusion、CogVideoX为代表的视频生成模型在自然场景创作中展现出惊人能力,但在处理科学现象时却频频失准。面对流体动力学模拟、气象演变过程等复杂科学场景,这些模型往往产生违背物理规律的异常现象,如气旋反向旋转、流体不连续平移等明显错误。

图一:传统视频扩散模型在科学现象生成中的典型错误
这一困境的核心症结在于模型仅学习了表面像素分布,未能深入理解背后的科学原理和动力学方程。加之科学数据稀缺且缺乏有效文本描述,传统基于文本提示的生成范式在此领域显得力不从心。
在这一背景下,来自东方理工大学与上海交通大学的联合研究团队提出了革命性解决方案。他们发表的论文《Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame》创新性地构建了潜在知识引导的视频扩散框架,仅需单帧初始图像即可生成符合物理规律的科学现象演化序列。
该方法突破性地为生成式AI注入了"物理直觉",使模型能够基于科学认知自主推演后续动态过程。这项开创性研究已获人工智能顶级会议AAAI 2026收录。

图二:创新算法框架通过高效参数微调将物理知识融入视频扩散模型
核心技术解析
该方法的实现路径包含三个关键阶段:潜在知识提取、伪语言提示生成和知识引导视频生成。
第一阶段:深度知识挖掘
研究团队设计了双重知识提取机制:
- 静态特征解析:采用掩码自编码器(MAE)从单帧图像中提取结构规律信息,如流场边界、温度梯度和云层形态等关键特征
- 动态趋势预测:通过光流预测网络(OFP)捕捉物理系统的运动趋势,实现对动力学过程的隐式理解
第二阶段:跨模态知识转换
针对科学领域缺乏有效文本描述的问题,研究团队创新性地利用CLIP模型的跨模态对齐能力,通过四元数网络将视觉特征转换为伪语言提示嵌入。这一突破性设计使模型能够在空间-频率双维度理解科学规律,生成可被扩散模型解析的引导信号。
第三阶段:智能视频合成
通过LoRA轻量微调技术将伪语言提示注入Stable Video Diffusion等模型的注意力层。训练阶段模型学习从噪声重建物理一致的视频序列,推理阶段仅需单帧输入即可推演完整动态过程,实现从"视觉生成器"到"世界现象模拟器"的质的飞跃。
实验验证与性能评估
研究团队在流体力学仿真和真实台风观测数据上进行了全面测试,涵盖瑞利-贝纳德对流、圆柱绕流、溃坝流和深水爆炸等经典流体场景,以及四个真实台风事件的卫星观测数据。

图三:台风现象生成效果显著提升

图四:流体现象生成质量大幅改善
定性分析显示,新方法生成的流体场和台风演化在结构连贯性、旋转方向一致性和能量分布合理性方面均显著优于传统模型。定量评估采用八项专业指标,包括:
- RMSE(均方根误差)和SSIM(结构相似性)
- SFE(流函数误差)和SE(平滑度误差)
- GS(梯度平滑度)和CS(连续性得分)
- QCE(涡度判据误差)和VE(旋涡误差)
实验结果表明,新模型在所有指标上均实现显著提升,特别是在流体模拟任务中Q-Criterion误差降低一个数量级,台风预测任务SSIM提升超10%,RMSE降低20%以上。

表一:流体模拟与台风数据定量评估结果
技术展望与应用前景
这项研究标志着生成式AI在科学建模领域的重要突破。通过赋予模型理解物理规律的能力,实现了从单纯"绘制"现象到智能"推演"过程的转变。模型在生成科学视频的同时,自然遵循能量守恒、流体连续性等基本物理定律。
这一技术突破为气象预测、流体仿真、地球系统建模等科学领域开辟了新的可能性,使AI真正成为科学研究的得力助手,而不仅仅是创意表达的工具。未来,基于物理直觉的生成模型有望在科学发现和工程应用中发挥更加重要的作用。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/ca3772a2-e980-4dae-a176-860d3a54c93a