Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出

AI快讯 2025-10-21

Self-Forcing++:突破4分钟长视频生成壁垒,自回归扩散模型实现高质量持续输出

本项突破性研究由加州大学洛杉矶分校与字节跳动Seed团队等顶尖机构联合完成。

在扩散模型持续推动视觉生成技术发展的今天,图像生成已臻至成熟境界,然而视频生成领域仍面临着一个关键的技术瓶颈——生成时长限制。当前大多数模型仅能生成数秒时长的短视频片段,而Self-Forcing++技术首次将视频生成推进到4分钟高质量长视频时代,且无需依赖任何长视频数据进行再训练。以下是该技术生成的100秒视频展示:

Self-Forcing++ 100秒生成视频演示

研究资源

  • 论文标题:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
  • 论文地址:https://arxiv.org/abs/2510.02283
  • 项目主页:https://self-forcing-plus-plus.github.io
  • 开源代码:https://github.com/justincui03/Self-Forcing-Plus-Plus

技术挑战:长视频生成的深层困境

在扩散模型驱动的视觉生成领域,从Sora、Wan、Hunyuan-Video到Veo,视频生成模型正不断逼近真实世界表现。然而几乎所有主流模型都存在一个共同的技术限制:仅能生成数秒时长的短视频片段。

这一限制源于架构层面的根本性挑战:

  • Transformer的非因果特性——传统扩散Transformer需要同时处理所有帧数据,无法实现自然的逐帧扩展
  • 训练与推理阶段的不匹配——模型训练仅接触5秒短片,推理时却要生成几十秒甚至数分钟内容
  • 误差累积效应——教师模型在单帧提供强监督,但学生模型缺乏应对长序列中逐步误差的能力
  • 过曝光与画面冻结——长时间生成后常出现画面静止、亮度漂移、运动中断等灾难性质量崩塌

这些技术难题共同导致:即使是最先进的自回归视频扩散模型,也难以在10秒以上保持画面一致性与运动连贯性。

核心创新:教师模型作为世界模拟器

Self-Forcing++的关键技术洞察在于:

教师模型虽然仅能生成5秒视频,但依然具备纠正长视频失真的强大能力。

研究团队巧妙利用这一特性,让学生模型先生成长视频内容(即使这些视频已开始出现质量崩坏),再利用教师模型纠正其中的错误

通过这种「生成→失真→纠错→学习」的循环机制,模型逐步掌握了在长时间尺度下自我修复和稳定生成的能力。这一创新机制使Self-Forcing++无需任何长视频标注数据,就能将生成时长从5秒扩展到100秒,甚至达到4分钟15秒(接近位置编码极限的99.9%)。

技术解析:实现稳定超长视频生成的三步法

Self-Forcing++技术架构图

1️⃣ 反向噪声初始化技术

传统短视频蒸馏中,模型每次均从随机噪声开始生成。Self-Forcing++创新性地在长视频展开后,将噪声重新注入已生成序列,确保后续帧与前文保持时间连续性。这一步骤相当于让模型「重启而不失忆」,有效避免时间割裂问题。

2️⃣ 扩展分布匹配蒸馏

研究团队将原本局限于5秒窗口的教师-学生分布对齐,扩展为滑动窗口蒸馏机制

学生模型生成100秒长视频 → 随机抽取任意5秒片段 → 利用教师分布校正该片段

这种设计使教师模型无需生成长视频,也能通过「局部监督」指导学生模型的长序列表现,实现长期一致性学习。

3️⃣ 滚动KV缓存机制

以往自回归模型在推理时使用滚动缓存,但训练阶段仍采用固定窗口,造成严重性能偏差。Self-Forcing++在训练阶段同步采用滚动缓存,实现真正的训练-推理对齐,彻底消除「曝光漂移」和「帧重复」问题。

进阶优化:强化学习赋能时间平滑

在部分极长视频场景中,模型仍可能出现突然跳帧或场景突变。研究团队借鉴强化学习中的Group Relative Policy Optimization框架,引入光流平滑奖励机制,让模型通过惩罚光流突变来学习更自然的运动过渡。实验结果显示:光流方差显著下降,视频流畅度大幅提升。

实验结果:全面超越基线模型的性能表现

📊 测试环境配置

  • 模型规模:1.3B参数(与Wan2.1-T2V相同)
  • 对比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing等
  • 评估指标:VBench + 新提出的视觉稳定性指标

📈 核心性能成果

以下数据展示在VBench和Gemini-2.5-pro视觉稳定性测试中的综合表现:

VBench测试结果
Gemini视觉稳定性测试

如下图所示,在0-100秒的生成时间范围内,Self-Forcing++始终保持卓越的稳定性,而基线模型大多经历严重的质量下降,包括过曝光和错误累积等问题。

0-100秒稳定性对比图

视觉展示:超长视频生成效果

在这些长视频生成示例中,Self-Forcing++始终保持稳定的亮度控制和自然的运动表现,视觉质量几乎无明显劣化。

扩展现象:算力与生成时长的正向关系

研究团队进一步探索「计算资源与生成时长」的关联性,在可视化生成过程中获得重要发现:

算力与时长关系图

这一发现表明:无需长视频训练数据,仅通过扩展训练计算预算,即可有效延长视频生成时长。

技术局限与未来展望

尽管自回归视频生成已达到分钟级别,但以下技术挑战仍需进一步突破:

  • 长期记忆缺失:在极长场景生成中,仍可能丢失被遮挡物体的状态信息
  • 训练效率优化:自回归训练计算成本较高,相比teacher-forcing训练速度仍有提升空间

更多技术演示视频和详细方法说明请访问项目主页。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/02bc6568-bad8-4a5d-97a6-b09d8c10bbb3

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章