标签名称：扩散模型

ICLR 2026 | 把视频扩散模型压到4bit，还能接近满血效果？ QVGen让「超低比特视频生成量化」真正可用

AI快讯

2026-02-26

何恺明团队提出pMF框架：单步无潜空间图像生成，简化流程提升效率

何恺明团队提出了一种名为pixel MeanFlow（pMF）的创新图像生成框架。该框架实现了单步、无需潜空间（Latent-free）的端到端图像生成，通过直接预测去噪图像场（x-prediction）并利用流形假设，简化了传统扩散模型的多步采样和潜空间依赖。实验表明，pMF在ImageNet数据集上取得了优异的FID分数（256x256分辨率下2.22，512x512下2.48），证明了单步无潜空间生成的可行性与竞争力，是迈向更高效、更简洁生成式AI模型的重要一步。

AI快讯

2026-02-04

Light-X：全球首个镜头与光照双控4D视频生成框架，单目视频秒变电影级大片

Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频，让用户自由规划虚拟摄像机轨迹以生成任意新视角，同时灵活调整场景的光照方向、强度与风格，实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型，攻克了多因素耦合与数据匮乏的难题，并在实验中显著优于现有方法，为影视、VR/AR等内容创作带来了革命性工具。

AI快讯

2025-12-10

UniLumos统一图像视频重打光框架：物理反馈提升光影真实性与20倍加速

UniLumos是一个统一的图像与视频重光照框架，通过引入几何反馈机制显著提升光影物理真实性，结合路径一致性学习实现20倍推理加速，并构建了细粒度的光影评估体系，在多项指标上达到当前最优水平。

AI快讯

2025-11-25

AAAI 2026视频扩散模型：基于物理直觉生成科学现象的潜在知识探索

东方理工与上海交大联合团队在AAAI 2026发表创新研究，提出潜在知识引导的视频扩散框架，突破性地实现从单帧图像生成符合物理规律的科学现象演化过程。该方法通过静态特征解析、动态趋势预测和跨模态知识转换三重机制，为生成式AI注入物理直觉，在流体模拟和台风预测任务中显著提升生成质量，标志着AI从视觉生成向科学生成的重要转变。

AI快讯

2025-11-13

Self-Forcing++突破4分钟长视频生成，自回归扩散模型实现高质量输出

Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术，首次实现4分钟高质量长视频生成，无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术，解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型，为AI视频生成领域开辟了新的技术路径。

AI快讯

2025-10-21

ICCV 2025 | 扩散模型生成手写体文本行的首次实战，效果惊艳还开源

AI 会写字吗？在写字机器人衍生换代的今天，你或许并不觉得 AI 写字有多么困难。

AI快讯

2025-10-20

AI导航

扩散模型

ICLR 2026 | 把视频扩散模型压到4bit，还能接近满血效果？ QVGen让「超低比特视频生成量化」真正可用

何恺明团队提出pMF框架：单步无潜空间图像生成，简化流程提升效率

Light-X：全球首个镜头与光照双控4D视频生成框架，单目视频秒变电影级大片

UniLumos统一图像视频重打光框架：物理反馈提升光影真实性与20倍加速

AAAI 2026视频扩散模型：基于物理直觉生成科学现象的潜在知识探索

Self-Forcing++突破4分钟长视频生成，自回归扩散模型实现高质量输出

ICCV 2025 | 扩散模型生成手写体文本行的首次实战，效果惊艳还开源