开源音视频模型MOVA发布:打破闭源垄断,实现精准音画同步

AI快讯 2026-01-30
编辑|泽南、Panda

今日,由上海创智学院 OpenMOSS 团队与初创企业模思智能(MOSI)联合研发的端到端音视频生成模型——MOVA(MOSS-Video-and-Audio)正式亮相。

作为国内首个高性能开源音视频模型,MOVA 实现了业界所称的「音画同出」。它能够生成长达8秒、最高分辨率达720p的视听片段,并在多语言口型同步、环境音效匹配度等方面展现出卓越的工业级水准。

更具突破性的是,在Sora 2、Veo 3等顶尖技术普遍选择闭源策略的行业背景下,MOVA 毅然选择将模型权重、训练代码、推理代码及微调方案进行全栈开源,为技术社区注入新的活力。

其生成的视频效果逼真,令人仿佛身临其境:

MOVA音视频生成效果展示

  • GitHub项目地址: https://github.com/OpenMOSS/MOVA

  • 官方项目主页: https://mosi.cn/models/mova

卓越性能:堪称开源领域标杆

过去一年,视频生成模型经历了迅猛发展。从Sora到Wan,再到LTX Video,AI生成的画面日益逼真,时长不断延长。然而,细观这些视频,许多要么是「无声默片」,要么配音与画面严重脱节。音视频生成模型正是通过端到端的模态融合,弥补了传统视频模型在音频维度的缺失。

尽管以Veo3为代表的端到端模型展现了极高的上限,但其闭源策略形成了技术壁垒,割裂了生态,也阻碍了社区通过协作修复模型缺陷(如幻觉、音画不同步等),导致该领域未能像大语言模型(LLM)那样迎来「开源爆发式」增长。

为了打破这堵高墙,让先进的音视频生成能力真正回归开发者社区,MOVA应运而生。它不仅具备高质量的端到端生成能力,更完整开源了360p与720p两个基础模型,以及涵盖微调、推理、生成工作流的全链路工具,补全了音视频生成基础模型的开源版图。

电影级物理仿真:声音与画面的完美共振

在物理仿真层面,MOVA展现出惊人的「物理直觉」。在这里,声音不再是可有可无的陪衬,而是具备空间感与质感的环境反馈。

例如,当一辆SUV在沙漠中高速漂移掉头时,不仅视觉上沙尘漫天,极具冲击力,音轨中同步生成的引擎轰鸣声与背景音乐紧密交织,营造出强烈的速度与力量感:

SUV沙漠驰骋音画同步示例

提示词示例:一辆SUV在沙漠中奔驰并打方向盘掉头,狂沙飞舞,配有激动人心的音乐和清晰的马达轰鸣声。

这种精密的声画逻辑在复杂的模拟场景中更为突出,如巷战场面,能精准还原枪声、呼吸声与环境混响。

电影级口型同步:精准捕捉对话的灵魂

MOVA的另一大突破在于其电影级别的口型同步能力。它能根据中英文指令,生成语义、情感与人物口型高度契合的对话场景。

例如,在一个公园散步的视频中,人物间的对话衔接自然流畅,口型与台词严丝合缝,彻底告别了以往AI视频中常见的「对口型」生硬感。无论是中文日常对话,还是还原《王牌特工》等影视作品的英文经典片段,MOVA都能出色完成。

涌现能力:视频内文字生成

有趣的是,在优化口型同步与语音能力的过程中,研发团队还收获了一项「意外之喜」:MOVA展现了生成视频内文字内容的能力。

例如,在生成一段具有未来感的学院大厅场景时,模型能在视频末尾让光芒汇聚成特定的祝福文字。虽然个别笔画可能存在细微瑕疵,但其整体效果已超越许多前沿闭源模型,表现令人惊喜。

核心技术:从模态孤岛到端到端共鸣

MOVA采用了一个约320亿参数(MoE架构,激活约180亿参数)的模型,支持「图像+文本」到音视频的生成。其核心技术亮点包括:

  1. 异构双塔架构:结合了14B参数的大型视频骨干网络(基于Wan 2.2 I2V)与1.3B参数的音频骨干网络,通过一个创新的「双向桥接模块」实现深度的跨模态交互。
  2. 跨模态时间对齐:设计了「对齐旋转位置嵌入」机制,解决了视频(24fps)与音频(高采样率)在时间尺度上的天然差异,防止音画「漂移」。
  3. 三阶段训练策略:从360p分辨率聚焦学习音画对齐基础,到360p阶段稳定对齐质量,最后升级至720p进行高清细节精修,训练过程科学高效。
  4. 智能Agent工作流:包含视觉解析、提示词重构、双重条件生成三个阶段,能更好地理解用户多样化的输入意图,提升生成内容与需求的一致性。
  5. 双重CFG引导:允许用户在「画面质量」和「音画同步精度」之间灵活调整权重,以适应不同生成场景的需求。

实验表现:挑战闭源巨头

在多项评测中,MOVA表现亮眼:

  • 在核心的口型同步指标上,MOVA-720p模型显著优于其他开源对比模型。
  • 在人为主观的「竞技场」评测中,MOVA生成的视频内容获得了用户的广泛偏好,ELO评分领先,面对部分基线模型的胜率超过70%。

开源意义与生态价值

MOVA的发布具有重要的行业意义。在当前全球顶尖音视频生成技术大多闭源的背景下,MOVA作为中国首个高性能开源音视频模型,通过全栈开源,为开发者提供了深入研究和二次创新的可能。其360p版本降低了对硬件的要求,使得更多人可以接触并使用先进的音视频生成技术。

该模型的研发也得到了昇腾AI的全栈算力支持,并已成为昇腾平台首个支持的开源多模态音视频一体生成模型。

「研创学」融合的创新实践

MOVA是上海创智学院与模思智能在「研究、创新、学生培养」模式上的一次成功实践。学院独特的「研创学」模式让学生深度参与到千卡规模的工业级基础模型训练中,在解决真实世界大规模工程问题的过程中,培养了稀缺的顶尖AI人才。模思智能则作为技术落地和商业验证的出口,形成了研发与产业应用相互促进的良性循环。

从能「听懂」复杂对话的语音识别模型,到能「创造」同步音视频的MOVA,模思智能正在快速构建其多模态基础模型的完整版图,持续向情境智能的终极目标迈进。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/a12f29af-11ae-42f4-945a-018db70a83c4

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章