开源音视频模型MOVA发布：打破闭源垄断，实现精准音画同步

AI快讯 2026-01-30

编辑｜泽南、Panda

今日，由上海创智学院 OpenMOSS 团队与初创企业模思智能（MOSI）联合研发的端到端音视频生成模型——MOVA（MOSS-Video-and-Audio）正式亮相。

作为国内首个高性能开源音视频模型，MOVA 实现了业界所称的「音画同出」。它能够生成长达8秒、最高分辨率达720p的视听片段，并在多语言口型同步、环境音效匹配度等方面展现出卓越的工业级水准。

更具突破性的是，在Sora 2、Veo 3等顶尖技术普遍选择闭源策略的行业背景下，MOVA 毅然选择将模型权重、训练代码、推理代码及微调方案进行全栈开源，为技术社区注入新的活力。

其生成的视频效果逼真，令人仿佛身临其境：

卓越性能：堪称开源领域标杆

过去一年，视频生成模型经历了迅猛发展。从Sora到Wan，再到LTX Video，AI生成的画面日益逼真，时长不断延长。然而，细观这些视频，许多要么是「无声默片」，要么配音与画面严重脱节。音视频生成模型正是通过端到端的模态融合，弥补了传统视频模型在音频维度的缺失。

尽管以Veo3为代表的端到端模型展现了极高的上限，但其闭源策略形成了技术壁垒，割裂了生态，也阻碍了社区通过协作修复模型缺陷（如幻觉、音画不同步等），导致该领域未能像大语言模型（LLM）那样迎来「开源爆发式」增长。

为了打破这堵高墙，让先进的音视频生成能力真正回归开发者社区，MOVA应运而生。它不仅具备高质量的端到端生成能力，更完整开源了360p与720p两个基础模型，以及涵盖微调、推理、生成工作流的全链路工具，补全了音视频生成基础模型的开源版图。

电影级物理仿真：声音与画面的完美共振

在物理仿真层面，MOVA展现出惊人的「物理直觉」。在这里，声音不再是可有可无的陪衬，而是具备空间感与质感的环境反馈。

例如，当一辆SUV在沙漠中高速漂移掉头时，不仅视觉上沙尘漫天，极具冲击力，音轨中同步生成的引擎轰鸣声与背景音乐紧密交织，营造出强烈的速度与力量感：

^{提示词示例：一辆SUV在沙漠中奔驰并打方向盘掉头，狂沙飞舞，配有激动人心的音乐和清晰的马达轰鸣声。}

这种精密的声画逻辑在复杂的模拟场景中更为突出，如巷战场面，能精准还原枪声、呼吸声与环境混响。

电影级口型同步：精准捕捉对话的灵魂

MOVA的另一大突破在于其电影级别的口型同步能力。它能根据中英文指令，生成语义、情感与人物口型高度契合的对话场景。

例如，在一个公园散步的视频中，人物间的对话衔接自然流畅，口型与台词严丝合缝，彻底告别了以往AI视频中常见的「对口型」生硬感。无论是中文日常对话，还是还原《王牌特工》等影视作品的英文经典片段，MOVA都能出色完成。

涌现能力：视频内文字生成

有趣的是，在优化口型同步与语音能力的过程中，研发团队还收获了一项「意外之喜」：MOVA展现了生成视频内文字内容的能力。

例如，在生成一段具有未来感的学院大厅场景时，模型能在视频末尾让光芒汇聚成特定的祝福文字。虽然个别笔画可能存在细微瑕疵，但其整体效果已超越许多前沿闭源模型，表现令人惊喜。

核心技术：从模态孤岛到端到端共鸣

MOVA采用了一个约320亿参数（MoE架构，激活约180亿参数）的模型，支持「图像+文本」到音视频的生成。其核心技术亮点包括：

异构双塔架构：结合了14B参数的大型视频骨干网络（基于Wan 2.2 I2V）与1.3B参数的音频骨干网络，通过一个创新的「双向桥接模块」实现深度的跨模态交互。
跨模态时间对齐：设计了「对齐旋转位置嵌入」机制，解决了视频（24fps）与音频（高采样率）在时间尺度上的天然差异，防止音画「漂移」。
三阶段训练策略：从360p分辨率聚焦学习音画对齐基础，到360p阶段稳定对齐质量，最后升级至720p进行高清细节精修，训练过程科学高效。
智能Agent工作流：包含视觉解析、提示词重构、双重条件生成三个阶段，能更好地理解用户多样化的输入意图，提升生成内容与需求的一致性。
双重CFG引导：允许用户在「画面质量」和「音画同步精度」之间灵活调整权重，以适应不同生成场景的需求。

实验表现：挑战闭源巨头

在多项评测中，MOVA表现亮眼：