RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理

AI快讯 2025-12-31

RoboTracer:多模态大模型如何让机器人看懂三维世界并精准规划轨迹

想象一下,你结束了一天的工作回到家中,对身旁的服务型机器人发出指令:“请从左到右,依次给每盆花浇水。记住,喷壶要在每朵花上方1到5厘米处停住再浇,这样水才能洒得更均匀。”

对人类而言,这是一个再自然不过的请求。然而,对于机器人来说,真正的挑战并非“浇水”这个动作本身,而是指令中蕴含的复杂空间逻辑:既有“从左到右”、“在上方”这样的定性空间关系,也包含了“1-5厘米”这样精确的定量尺度约束。在物品繁多、布局杂乱且随时可能变化的真实家庭环境中,让机器人稳定地理解并执行这类指令,即便是对当前最先进的视觉-语言-动作模型(VLA)而言,依然是一个巨大的难题。

为了攻克这一难关,来自北京航空航天大学、北京大学、北京智源人工智能研究院及中国科学院自动化研究所的研究团队,联合推出了一款名为RoboTracer的多模态大模型。该模型的核心目标,是让机器人具备在三维物理世界中,进行多步、带真实尺度约束的推理,并生成精确空间轨迹的能力。

什么是空间轨迹?为何它如此关键?

空间轨迹,可以理解为一条在三维空间中规划出的、满足特定任务约束的位置序列。它如同一座桥梁,一端连接着人类用自然语言描述的任务意图,另一端则通向机器人可执行的具体动作。生成一条高质量的空间轨迹,要求模型必须同时掌握两种核心能力:

  • 3D空间指代:理解指令中的空间关系(如“左边第二盆”),并在三维场景中精准定位到对应的物体。
  • 3D空间度量:理解现实世界的绝对尺度,并能进行精确计算(如推算出“花盆上方5厘米”的具体三维坐标)。

遗憾的是,现有的大多数视觉-语言模型(VLM)的研究多集中于二维图像空间,其输出往往是像素坐标,缺乏对三维几何和真实物理尺度的深刻理解,这导致了2D视觉轨迹与可执行的3D空间轨迹之间存在难以逾越的鸿沟。

RoboTracer的创新之道:从理解到生成

RoboTracer通过一套创新的技术方案,成功弥合了这一鸿沟:

1. 解耦的坐标表达,降低学习难度
传统方法让模型直接预测三维世界的(x, y, z)坐标,迫使它去“硬学”复杂的相机几何。RoboTracer则采用了更符合机器人感知习惯的(u, v, d)解耦表达——即图像像素坐标(u, v)结合深度信息(d)。这种方式大幅降低了模型的学习门槛,提升了预测精度,同时让数据能更灵活地复用于不同维度的任务。

2. 通用空间编码器与尺度解码器,建立绝对尺度感知
为了让模型真正“感受”到真实世界的尺寸,研究团队引入了两个关键模块:通用空间编码器能够融合深度图、相机参数等多种几何信息,为模型提供强大的空间先验;尺度解码器则通过回归损失,直接将模型内部特征与真实世界的绝对长度对应起来,从而获得精确的尺度感知能力。

3. 两阶段训练策略,从基础感知到复杂推理
RoboTracer的训练分为两个阶段:首先通过全参数微调(SFT),夯实模型在单步空间理解、度量和指代方面的基础能力;随后通过强化学习微调(RFT),并创新性地设计“过程奖励”,显式地优化轨迹生成中每一个关键推理步骤的质量,从而让模型学会处理多步、复杂的组合式空间约束任务。

海量数据基石:TraceSpatial数据集

为了支撑上述训练,团队构建了目前规模最大的高质量3D空间数据集——TraceSpatial。该数据集包含450万个样本、3000万个问答对,覆盖室内外多种场景,并包含了大量带有绝对尺度标注和详细多步推理过程的数据,为模型学会从零到一生成空间轨迹提供了坚实的基础。

卓越性能:开箱即用,领先业界

实验结果表明,RoboTracer展现出了卓越的性能:

  • 在基础的空间理解、度量和指代任务中,SFT后的RoboTracer取得了79.1%的平均成功率,达到了当前最先进水平。
  • 在团队提出的高难度空间轨迹生成评测基准TraceSpatial-Bench上,经过RFT训练的RoboTracer更是大幅领先,平均准确率比强大的Gemini-2.5-Pro高出36%
  • 在仿真和真实机器人实验中,RoboTracer能够成功完成许多需要复杂空间推理的任务,而现有的VLA模型则难以胜任。它还能灵活集成到UR5机械臂、G1仿人机器人等不同平台上,实现“开箱即用”。

这项研究标志着机器人在三维空间理解和自主规划能力上迈出了重要一步。随着像RoboTracer这样的技术不断发展,那个能真正听懂我们的话,在杂乱的家庭环境中帮我们浇花、收纳的机器人伙伴,或许正加速从科幻走进现实。

相关资源

  • 论文标题:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 论文链接:https://arxiv.org/pdf/2512.13660
  • 项目主页:https://zhoues.github.io/RoboTracer/
  • 代码仓库:https://github.com/Zhoues/RoboTracer

本文研究由北京航空航天大学博士生周恩申(第一作者)、北京智源研究院研究员迟程(共一作者兼项目负责人)、北京航空航天大学盛律教授与北京大学仉尚航研究员(通讯作者)等共同完成。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/053c565c-23eb-4da4-b3b4-17f3dc8b5873

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章