GenMimic革新机器人模仿学习:视频生成驱动人形机器人进化
GenMimic:当机器人学会“看视频学动作”,科幻正照进现实
你是否还记得《黑客帝国》中尼奥通过脑机接口瞬间掌握格斗技巧的经典一幕?那种只需“下载”便能精通技能的未来,如今正通过一项名为GenMimic的突破性研究,在机器人领域初现曙光。
想象一下这样的场景:你在电脑前输入一句简单的描述——“一个人在打太极”。顷刻间,如Wan2.1或Sora这样的先进AI视频生成模型,便会创作出一段动态视频。而更令人惊叹的是,一旁的人形机器人“观看”完这段视频后,竟能无需任何额外训练(即“零样本”学习),就在现实世界中流畅、精准地复现出整套太极动作。

这并非天方夜谭,而是来自加州大学伯克利分校、纽约大学及约翰·开普勒林茨大学的联合研究团队在其最新论文中勾勒出的未来图景。他们提出的GenMimic方法,旨在赋予机器人如同“模仿大师”般的能力。其核心魅力在于强大的鲁棒性:即使AI生成的视频中存在人物动作变形、闪烁甚至如同“鬼畜”般的视觉噪声,机器人也能去芜存菁,精准提取出动作的核心逻辑与轨迹,并在物理世界中稳健地执行。

- 论文标题:From Generated Human Videos to Physically Plausible Robot Trajectories
- 论文地址:https://arxiv.org/abs/2512.05094v1
- 项目主页:https://genmimic.github.io/
值得注意的是,刚刚离开Meta并投身创业的图灵奖得主Yann LeCun也是这项研究的四位共同导师之一。这篇论文很可能成为他离开Meta后发布的首批学术成果之一,目前其所属机构仅标注为纽约大学。
该研究由James Ni、Zekai Wang、Wei Lin和Amir Bar四位学者共同主导,旨在攻克机器人学中的一个关键难题:人形机器人如何能够实现零样本(zero-shot)地执行由生成式视频模型所创造的人类动作?
研究的四大核心贡献
- 首创通用框架:提出了首个使机器人能够执行视频生成模型所产生动作的通用框架。
- 创新学习策略:提出了GenMimic强化学习策略,通过对称正则化与选择性加权的3D关键点奖励进行训练。该策略仅在现有动作捕捉数据上训练,却能出色地泛化至充满噪声的合成视频。
- 构建基准数据集:利用Wan2.1和Cosmos-Predict2模型,整理并创建了名为GenMimicBench的合成人类动作数据集,为评估零样本泛化能力与策略鲁棒性建立了可扩展的基准。
- 全面实验验证:在仿真与真实世界(使用宇树G1人形机器人)中进行了广泛验证,展示了方法在仿真中显著优于基线模型,并在实体机器人上实现了连贯、物理稳定的动作模仿。
深入解析:GenMimicBench数据集与方法论
GenMimicBench:一个专为挑战而生的数据集
为了严格评估机器人在面对不同视觉风格与动作分布时的零样本泛化能力,研究团队构建了GenMimicBench数据集。它包含428个由AI生成的视频,涵盖从简单手势到复杂物体交互的广泛动作类型。

- Wan2.1视频(受控场景):在清晰、结构化的室内环境中生成,包含多视角视频,主体身份、着装、动作多样,共217个视频。
- Cosmos-Predict2视频(自然场景):模拟YouTube风格,背景杂乱、光照多变,包含手势及开门、举重等物体交互行为,共211个视频,旨在测试策略在真实世界复杂性下的鲁棒性。
GenMimic的核心技术:两阶段流程与智能策略
研究团队设计了一个精巧的两阶段流程,将生成的视频转化为机器人可执行的动作指令。

第一阶段:从像素到4D重建
首先,利用先进的人体重建模型,从输入RGB视频中提取每一帧的人体姿态参数(SMPL)。由于机器人与人体形态存在差异,这些参数会被“重定向”到机器人的关节空间,最终得到机器人在3D空间中的关键点轨迹。
第二阶段:从轨迹到动作执行
获得3D关键点轨迹后,GenMimic策略开始工作。该策略接收关键点信息及机器人自身的本体感知信号,输出物理上可行、稳定的目标关节角度,最终通过控制器驱动机器人运动。
策略的智慧:加权跟踪与对称损失
为了应对生成视频中不可避免的噪声和错误,GenMimic策略融入了两大关键技术:
- 加权跟踪:并非所有身体部位都同等重要。策略会为手、脚等“末端执行器”关键点分配更高权重,而对躯干等部位噪声容忍度更高,从而确保任务相关动作的精准模仿与整体稳定性。
- 对称损失:利用人体左右对称的先天物理规律作为“归纳偏置”。策略在训练时显式学习左右关键点的对称关系,这使其在面对视频中不对称的局部噪声时,能自动进行校正,表现出更强的鲁棒性。
实验结果:仿真与现实的卓越表现
仿真实验:全面领先基线模型
在GenMimicBench数据集上的测试表明,GenMimic策略在成功率(SR)和关键点跟踪误差(MPKPE)等核心指标上,均显著优于GMT、TWIST等现有先进基线模型,证明了其卓越的零样本模仿与抗噪声能力。

真实世界实验:宇树G1机器人成功复现动作
研究团队将训练好的策略成功部署到23个自由度的宇树G1人形机器人上,进行了43个不同动作的测试。
- 成功案例:机器人能够可靠地复现挥手、指向、伸展等上半身动作及其组合。
- 当前挑战:涉及下半身移动(如迈步、转身)的复杂组合动作仍存在稳定性挑战,研究团队认为这主要源于视频生成动作本身在物理可行性上的局限。

GenMimic研究标志着机器人模仿学习迈入了新纪元。它首次将前沿的视频生成技术与机器人运动控制无缝衔接,为机器人获取海量、多样化的技能指示开辟了一条前所未有的道路。随着视频生成质量与物理仿真技术的不断进步,让机器人“看一遍就会”的通用技能学习时代,或许比我们想象的更近。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/d7abaafd-ae0b-4553-9a6c-31bd333ac031