扩散模型

Light-X:全球首个镜头与光照双控4D视频生成框架,单目视频秒变电影级大片

Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频,让用户自由规划虚拟摄像机轨迹以生成任意新视角,同时灵活调整场景的光照方向、强度与风格,实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型,攻克了多因素耦合与数据匮乏的难题,并在实验中显著优于现有方法,为影视、VR/AR等内容创作带来了革命性工具。

UniLumos统一图像视频重打光框架:物理反馈提升光影真实性与20倍加速

UniLumos是一个统一的图像与视频重光照框架,通过引入几何反馈机制显著提升光影物理真实性,结合路径一致性学习实现20倍推理加速,并构建了细粒度的光影评估体系,在多项指标上达到当前最优水平。

AAAI 2026视频扩散模型:基于物理直觉生成科学现象的潜在知识探索

东方理工与上海交大联合团队在AAAI 2026发表创新研究,提出潜在知识引导的视频扩散框架,突破性地实现从单帧图像生成符合物理规律的科学现象演化过程。该方法通过静态特征解析、动态趋势预测和跨模态知识转换三重机制,为生成式AI注入物理直觉,在流体模拟和台风预测任务中显著提升生成质量,标志着AI从视觉生成向科学生成的重要转变。

Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出

Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。

ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源

AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。