RoboChallenge年度报告:标准化真机测试揭示VLA模型在物理世界的挑战与机遇

从虚拟到现实:构建AI的“物理考场”
尽管大语言模型和视觉语言模型在感知与认知层面展现了巨大潜力,但如何让机器人将这些能力稳定地应用于复杂多变的真实世界,仍是科研人员面临的核心难题。长期以来,真机测试因成本高昂、标准不一、难以复现等问题,导致评估多局限于仿真环境或简单场景,模型在现实中的真实智能水平难以被准确衡量。
RoboChallenge平台正是为解决这一行业痛点而创立。该平台由原力灵机与Hugging Face联合发起,致力于打造一个开放、公平且可大规模重复验证的物理智能“测试场”。自2025年10月上线以来,平台已整合了包括UR5、Franka Panda等在内的20台主流机器人,构建了一个稳定、多样的远程真机测试网络。
携手行业力量,制定统一标尺
为推进真机评测的规范化进程,2025年11月,原力灵机与Hugging Face联合智源研究院、智元机器人、清华大学等多家顶尖机构与高校,共同组建了RoboChallenge组委会。
RoboChallenge 组委会成员
此举标志着真机评测进入了基于“开放共同体”的标准化协作新阶段。组委会旨在将RoboChallenge建设成为行业公共基础设施,通过常态化运营,推动评测工作从各自为政走向共识共建,加速具身智能领域通用标准的形成。
同时,平台开源了名为“Table30”的数据集,涵盖9大类共30项标准化桌面操作任务,为全球研究者提供了一个公开、透明的基准测试集,此举迅速获得了国际社区的广泛关注与采用。
实测热潮兴起,开源模型表现亮眼
报告数据显示,平台用户数与测试量在过去三个月呈现指数级增长,“进行真机实测”已成为全球具身智能领域的普遍共识。平台吸引了从知名研究机构、大型企业到活跃开源社区的广泛参与。
目前,已有包括Pi0、RDT-1B、CogACT等多款由社区贡献的开源模型成功完成测试并进入榜单。千寻智能、自变量等团队已完成全部Table30任务的评测。此外,多家机构的模型正在平台上进行密集测试。这种跨地域、跨机构的广泛参与,凸显了行业对标准化真机验证平台的强烈需求。
核心洞察:进步显著,道阻且长
通过对海量测试数据的深入分析,年度报告揭示了以下关键发现:
1. 真机验证成为刚需:平台活跃度的暴涨,证明RoboChallenge已成为评估VLA模型物理世界能力的核心平台。
活跃用户地域分布图,显示平台国际化生态
2. 基础任务接近解决:如“叠碗”、“物体移入盒子”等任务因成功率较高,成为模型验证的“入门关卡”,类似于具身智能的“Hello World”。
3. 复杂任务仍是难关:需要多步骤规划、长期决策和精细操作的任务,如“整理纸杯”、“制作三明治”等,对所有模型而言依然极具挑战,成功率很低,明确了当前技术的上限。
4. 最佳模型成功率约50%:当前在Table30上表现最优的模型,整体成功率仅在50%左右,既显示了进展,也印证了数据集的挑战性,表明通用具身智能仍有长路要走。
RoboChallenge官网模型总榜(Top 8)截图于2025年1月23日
5. 精细操作是短板:模型虽能理解指令并产生移动意图,但在需要精准控制的动作任务中,成功率不足15%。平台积累的大量失败案例形成了宝贵的“错题集”,为模型优化指明了方向。
6. 社区共创价值凸显:通过实战测试,社区与企业不仅摸清了模型边界,更积累了宝贵的工程经验与技术洞察,这些反馈正驱动平台与技术的共同进化,汇聚行业力量加速具身智能的关键突破。
未来规划:场景拓展与生态深化
RoboChallenge年度报告的发布,开启了具身智能真机评测数据驱动与标准共建的新篇章。未来,平台计划引入更多机器人类型,拓展至更贴近工业与家庭需求的复杂场景,并设计更高难度的任务。同时,将探索分布式评测机制,以提升测试规模与效率。
“我们期待与全球社区共同努力,”RoboChallenge组委会表示,“通过维护这个真实、开放的‘考场’,持续降低真机验证门槛,让每一次尝试——无论成功与否——都成为进步的基石,携手推动具身智能突破现实应用的最终障碍,在物理世界中创造真正的价值。”
欲查阅完整的RoboChallenge年度报告,请访问官网:https://robochallenge.ai/news
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/b38b91bd-30b1-460a-a170-274f86ce1ea1