ViMoGen创新模型:提升3D人体动作生成泛化能力,赋能具身智能发展

AI快讯 2026-01-08

ViMoGen:突破3D人体动作生成瓶颈,为具身智能注入通用能力

当Sora等视频生成模型已经能轻松理解并呈现“宇航员在火星后空翻”这类天马行空的指令时,3D人体动作生成(3D MoGen)领域却似乎仍在原地踏步。现有的模型在标准测试集上或许能交出漂亮的答卷,但一旦面对训练数据中未曾出现过的复杂交互或罕见动作指令,其生成的3D动作往往显得僵硬、失真,甚至退化为毫无生气的平均姿态。这种泛化能力的缺失,如同一道无形的壁垒,严重阻碍了3D动作生成技术在真实世界交互系统、数字人、乃至机器人控制等领域的深度应用。

一个自然而然的疑问随之浮现:既然先进的视频生成模型已经初步掌握了通用的物理规律和人类行为模式,我们能否将这些宝贵的“世界知识”提炼出来,灌注给3D动作生成模型,从而赋予它更强的理解与创造能力?

ViMoGen模型架构示意图,展示从视频到3D动作的知识迁移
图:ViMoGen模型旨在将视频生成模型的通用知识“蒸馏”至3D动作生成领域
ViMoGen研究论文与项目主页信息
相关资源:论文链接 | 项目主页

通向通用动作生成的三重基石

来自南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的联合研究团队,在其最新论文《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》中,系统性地提出了解决这一核心挑战的完整框架。该研究从数据、模型、评估三个相互支撑的维度出发,为构建真正具备泛化能力的动作生成系统绘制了清晰的蓝图。

  1. 数据基石:ViMoGen-228K数据集:这是一个规模空前、来源多样的高质量动作数据集。它不仅仅整合了来自30个光学动作捕捉(MoCap)数据集的精准数据,更创新性地引入了从海量互联网视频中提取的动作序列,并利用视频生成模型(Video Gen)合成出在现实世界中极难捕捉的“长尾”动作(如高难度特技、复杂物体交互),从而在数据的“规模”与“语义多样性”上实现了双重飞跃。
  2. 模型核心:ViMoGen双分支架构:模型创新性地采用了文本到动作(T2M)动作到动作(M2M)双分支设计。通过一个精巧的门控融合机制,ViMoGen能够动态地平衡并融合来自传统MoCap数据的“高精度物理先验”与来自视频生成模型的“广谱语义先验”,使生成的动作既符合物理规律,又能忠实反映复杂文本指令的细节。
  3. 评估标尺:MBench评测基准:为了准确衡量模型的泛化能力,研究团队提出了业界首个面向“泛化性”的综合评测基准——MBench。它从动作质量、文本忠实度、开放世界泛化力三个核心维度出发,细化为9项具体指标,对模型进行全面、分层的评估,彻底改变了以往仅靠FID等分布相似度指标的评价方式。

ViMoGen-228K:数据集的革命

传统数据集如AMASS虽然动作数据精准,但所涵盖的语义场景较为单一。ViMoGen-228K包含了约22.8万条高质量样本,其革命性在于:

  • 多模态对齐:提供文本-动作、文本-视频-动作的多元配对,为模型学习跨模态关联奠定基础。
  • 多源融合构建泛化性:严格筛选的实验室MoCap数据保证了动作的物理正确性;网络视频数据带来了丰富的日常与长尾场景;而由AI视频模型生成的合成数据,则填补了那些在现实拍摄中成本极高或风险极大的动作空白(如极限运动、灾难场景)。

ViMoGen模型:知识融合的艺术

ViMoGen双分支模型架构详解
图:ViMoGen模型通过门控机制融合T2M与M2M双分支信息

该模型的核心思想是“站在巨人的肩膀上”。T2M分支专注于从文本指令中解码出动作的语义意图,而M2M分支则负责确保动作序列在物理上的连贯与合理。门控机制如同一位智慧的调度员,根据输入指令的复杂度和类型,决定从视频生成模型(拥有广阔但可能粗糙的语义知识)和MoCap数据(拥有精准但有限的物理知识)中各自汲取多少“养分”。这种设计使得ViMoGen不仅在标准测试集上表现出色,更在衡量泛化能力的MBench基准上展现了显著优势。

MBench:重新定义评估标准

MBench评测体系三大维度九项指标
图:MBench评测体系涵盖质量、忠实度与泛化力三大维度

MBench的提出,旨在回答一个关键问题:模型在面对未知世界时,究竟有多可靠?

  • 动作质量:通过量化脚与地面的接触合理性、关节穿透情况、动作平滑度等,确保生成的动作是“物理上可实现”的。
  • 指令忠实度:借助多模态大模型,评估生成动作是否精确匹配文本描述中的空间关系(如“向左后方”)、时序逻辑和交互对象。
  • 开放世界泛化力:专门设计了一系列分布外(OOD)测试用例,包括极端姿势、稀有动作组合、复杂多步指令等,直接挑战模型在“陌生”领域的创造与适应能力。

赋能具身智能:架起虚拟与现实的高质量桥梁

这项研究的深远影响,尤其体现在具身智能领域。当前,训练人形机器人完成复杂任务,严重依赖于海量、高质量的参考动作轨迹(如SMPL格式动作)。然而,传统动作捕捉数据集的局限,使得机器人“技能库”的扩展举步维艰。

ViMoGen的出现,为这一困境提供了突破性的解决方案:

  • 丰富训练数据:ViMoGen-228K数据集本身就能为机器人策略训练提供大量涵盖长尾场景和边缘案例的高质量动作数据。
  • 按需生成能力:凭借强大的泛化能力,ViMoGen模型可以应需生成特定任务的动作序列(如“在湿滑地面上搬运箱子”),极大丰富了机器人仿真训练(Sim-to-Real)的素材库,让机器人在虚拟环境中就能预习各种复杂、突发状况。
  • 质量前置筛选:MBench评测体系可以作为一道安全滤网,在动作数据用于昂贵的机器人物理仿真或实体训练前,提前筛除那些可能导致控制失败(如跌倒、关节锁死)的无效或危险动作,提升训练效率与安全性。

惊艳的效果展示

以下是通过ViMoGen模型生成的部分3D人体动作示例,这些动作均来自对复杂文本指令的理解与生成:

空翻动作生成

空翻
指令:一个人俯身蓄力,蹬地跃起,身体蜷缩空中翻转后平稳着陆。

杂耍动作生成

多球杂耍
指令:一个人协调地抛接多个球,保持流畅的节奏与平衡。

引体向上动作生成

引体向上
指令:一个人完成从悬垂到下巴过杠的标准引体向上。

空手道动作生成

空手道组合
指令:一位武术家边前进边执行一套动态的空手道动作。

推箱子动作生成

推箱子
指令:一个人前倾身体,双手抵住重箱缓慢前推。

研究团队

本项突破性工作由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖科研人员通力合作完成。林靖(南洋理工大学博士生)、王睿思(商汤科技研究员)、鲁俊喆(清华大学硕士)为共同第一作者。他们的研究分别聚焦于大模型驱动的3D感知与生成、高性能计算与空间智能、以及生成式模型与3D视觉,此次跨界合作为3D动作生成领域带来了全新的思路与强大的工具。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/4d00e230-cd8e-4763-83c9-951c5eb63f7f

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章