小米开源跨域模型MiMo-Embodied:融合自动驾驶与具身智能,29项基准SOTA
小米开源跨领域模型MiMo-Embodied:融合自动驾驶与机器人智能,29项基准测试创下新纪录
这项突破性研究由小米具身智能团队倾力打造,核心贡献者郝孝帅担任第一作者,项目由小米智能驾驶团队首席科学家陈龙领衔。该团队汇聚了自动驾驶与具身智能领域的顶尖人才,致力于打破技术壁垒,构建能够深度理解物理世界并进行复杂推理的通用智能系统。
随着大语言模型和多模态大语言模型在AI领域的快速发展,算法从数字世界迈向物理实体时面临着严峻挑战。传统研发模式中,自动驾驶与具身智能长期处于分离状态:前者专注于户外高速动态环境下的车辆感知,后者则聚焦室内静态或低速场景的精细操作。
这种领域分割导致专用模型存在明显局限性。自动驾驶模型缺乏对物体细节的精细理解,而机器人模型难以应对复杂的交通交互场景。为解决这一痛点,小米团队在最新技术报告中发布了MiMo-Embodied——首个成功融合两大领域的开源基础模型。
实验数据显示,MiMo-Embodied在17个具身智能基准和12个自动驾驶基准上均取得领先成绩,不仅超越开源基线,更在空间推理与规划等关键指标上优于GPT-4o、Gemini-Pro等闭源模型。
构建统一认知框架
MiMo-Embodied的核心创新在于建立了统一的感知与推理架构。基于小米自研的MiMo-VL框架,该模型将物理世界交互能力分解为六个关键维度。在自动驾驶方面,模型不仅具备环境感知能力,还能进行状态预测和驾驶规划;在具身智能方面,则重点突破可供性预测和空间理解能力。
四阶段训练策略
团队设计了严谨的四阶段渐进训练方案:
第一阶段建立基础认知,通过通用图文数据和具身数据进行监督微调
第二阶段注入自动驾驶知识,采用混合监督方法保持跨领域能力
第三阶段引入思维链推理技术,提升逻辑推理能力
第四阶段运用强化学习进行精度优化,解决多模态模型的幻觉问题
卓越性能表现
在具身智能测试中,模型在可供性预测、任务规划和空间理解三大核心能力上全面突破。在自动驾驶评估中,环境感知、状态预测和驾驶规划等12项指标均表现优异。真实场景验证显示,模型在家庭导航、物体操作等任务中展现出卓越的实用性。
技术验证与展望
消融实验证实,多阶段训练策略实现了两大领域能力的协同提升,为构建统一的基础模型提供了有效范式。MiMo-Embodied的成功标志着具身智能研究进入新阶段,证明了物理世界认知逻辑的统一性,为实现“一个智能核心,适配多种实体”的未来愿景奠定了坚实基础。
论文信息:
题目:MiMo-Embodied: X-Embodied Foundation Model
链接:https://arxiv.org/abs/2511.16518
项目地址:https://github.com/XiaomiMiMo/MiMo-Embodied
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/1b4ff2f5-9d91-4102-827c-e1d500872b1c
本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。