张吕敏团队突破AI长视频生成:ControlNet记忆压缩技术解决画面一致性难题
张吕敏团队攻克AI长视频生成难关:ControlNet记忆压缩技术破解画面一致性瓶颈
对于渴望用AI创作视频的创作者而言,一个普遍的困扰是:当前主流的高质量视频生成模型,其输出时长往往被限制在15秒左右。一旦追求更高清晰度,这个时长还会进一步缩短。为了实现更宏大的创意,创作者们不得不将视频分段生成,并费力地拼接首尾帧,不仅操作繁琐,还需要反复“抽卡”以维持画面的一致性。那么,究竟是什么在限制AI生成更长、更连贯的视频?
许多人可能没有意识到,一段看似普通的60秒、480p、24帧/秒的视频,在AI模型的“眼中”会被分解成超过50万个“潜在token”。这些token如同一条极其漫长的记忆胶带,模型若想保持剧情流畅、画面统一,就必须完整地记住整条胶带上的所有信息。然而,这带来的代价是计算资源的急剧膨胀,普通显卡根本无力承担。
这正是当前自回归视频生成模型面临的核心矛盾:更长的上下文记忆带来更连贯的画面,但也意味着更高的计算成本。为了应对,研究者们通常被迫做出妥协:要么采用滑动窗口技术,切掉大部分历史帧以换取可运行的算力;要么对视频进行激进的压缩,牺牲画面的清晰度与细节。问题在于,这些压缩方法往往最先丢失的,正是决定画面真实感与一致性的高频细节。
在这一技术困境下,由苏州大学校友、斯坦福大学博士、ControlNet的创造者张吕敏领衔的研究团队,提出了一项突破性的解决方案。他们开发了一套专为长视频设计的记忆压缩系统,其核心目标是在大幅压缩视频数据的同时,最大限度地保留精细的视觉信息。

- 论文标题:Pretraining Frame Preservation in Autoregressive Video Memory Compression
- 论文链接:https://arxiv.org/abs/2512.23851v1
研究团队设计了一种新颖的神经网络结构,用于将长视频序列压缩为简短的上下文表示。他们特别设计了一种显式的预训练目标,确保模型能够在视频时间轴的任意位置,都能有效保留单帧中的高频细节。实验表明,基线模型可以将一段20秒的视频压缩至约5000个token长度的上下文表示,同时支持从中随机检索任意单帧,并在感知质量上保持出色的外观保真度。这个预训练好的模型可以轻松微调,作为自回归视频模型的“记忆编码器”,从而以极低的上下文成本实现长历史记忆建模,且仅带来微小的保真度损失。

演示视频:该视频使用完整历史上下文(未切割任何历史帧)逐秒自回归生成。20多秒的历史被压缩至约5k上下文长度,并在RTX 4070 12GB显卡上流畅处理。
创新的两阶段记忆压缩架构
该技术采用了一种两阶段策略:
- 预训练专用记忆压缩模型:首先,训练一个专门的模型,其核心任务是学会在任意时间点上,尽可能高保真地保留帧级别的细节信息。训练目标是通过最小化从压缩历史中随机采样帧的特征距离来实现的,这迫使模型在整个视频序列中都能稳健地编码细节。
- 轻量级双路径网络设计:在网络架构上,团队提出了一种轻量级的双路径结构。模型并行处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入Diffusion Transformer的内部通道,巧妙地绕过了传统VAE(变分自编码器)造成的信息瓶颈,从而显著提升了最终输出的细节保真度。
预训练:迫使模型学会“全局记忆”

记忆压缩模型的预训练过程示意图。模型需要将长视频(如20秒)压缩成短上下文(如长度5k)。预训练目标是确保能从任意历史时间点检索出富含高频细节的帧。
这项研究的核心创新在于其独特的预训练目标设计。团队发现,衡量一个视频压缩机制好坏的关键,在于其从任意时间点高质量检索单帧的能力。在高压缩率下,完美检索虽不现实,但目标可设定为最大化任意帧的检索质量。
具体而言,给定一段长视频历史H,记忆压缩模型 φ(·) 学习将其压缩为一个紧凑的上下文表示 φ(H),同时仍需保持重建任意时间点帧的能力。在训练时,模型会从历史序列中随机选择一组帧索引Ω,而对其余所有帧进行噪声掩蔽。模型必须仅依靠压缩后的表示φ(H)来重建这些被选中的干净帧。
这种“随机抽查”机制至关重要,它有效防止了模型偷懒——例如只记住开头或结尾的帧。它迫使模型学习一种能够在整个时间线上持续保留细节信息的通用表示方法。
微调:构建高效长视频生成系统

微调自回归视频模型的流程示意图。展示了如何将预训练好的记忆压缩模型集成到最终的视频生成系统中。
借助预训练好的记忆压缩模型φ,研究团队可以将其作为“历史记忆编码器”,与现有的视频扩散模型(如WAN模型)结合,并通过LoRA等技术进行轻量级微调,从而构建出一个强大的自回归视频生成系统。
最终得到的视频生成模型具备三大优势:超长的历史窗口(超过20秒)、极短的历史上下文长度(约5k token),以及经过显式优化的高帧检索质量。这意味着用户可以用消费级显卡生成更长、更连贯、细节更丰富的AI视频。
实验验证:效果与性能兼备
在实验环节,团队使用8张H100 GPU集群进行预训练,并用单张H100或A100进行LoRA微调。所有实验均在HunyuanVideo和Wan系列基础模型上进行。数据集包含了约500万个来自互联网的视频,并经过严格的质量清洗和字幕标注。
定性与定量评估

基于故事板的定性生成结果。模型能够处理复杂的多提示故事板,并在角色、场景、物体和情节线上保持高度一致性。
定性评估显示,该模型能够流畅处理由外部语言模型编写的多样化故事板提示,在角色、场景、物体和情节线上均表现出优秀的一致性。
定量评估则引入了VBench、VBench2等多个权威视频评估指标。结果表明,该方法在多个关键的一致性指标上得分合理且有竞争力。特别是在“对象一致性”方面表现突出。用户研究和ELO评分也证实,该架构在压缩率与生成质量之间取得了卓越的平衡。
消融实验:验证架构有效性
通过系统的消融实验,团队验证了不同神经网络架构设计的优劣。结果显示,他们提出的方法在PSNR(峰值信噪比)、SSIM(结构相似性)等图像质量指标上均取得领先。即使在较高的压缩率(4×4×2)下,该方法依然能有效保持原始图像的结构和细节,视觉重建效果显著优于对比方案。
综上所述,张吕敏团队提出的这项记忆压缩技术,为AI长视频生成中长期存在的“画面一致性”与“算力成本”矛盾提供了极具潜力的解决方案。它不仅推动了学术前沿,也为广大AI视频创作者带来了新的可能性。欲了解技术细节,请参阅上述论文原文。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/800e7467-6ec3-4467-95c5-8aafed334ebb