空间推理
RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理
北京航空航天大学、北京大学等机构联合推出的多模态大模型RoboTracer,通过创新的解耦坐标表达、通用空间编码器和两阶段训练策略,使机器人具备了在复杂三维环境中进行多步、带真实尺度约束的推理能力,并能生成精确的空间轨迹。该模型在多项评测中大幅领先现有先进模型,并能灵活集成于不同机器人平台,为实现家用服务机器人的高级空间任务规划提供了关键技术突破。
微观空间智能:AI驱动分子结构与药物研发的视觉语言模型基准挑战
来自中国顶尖高校与机构的研究团队联合发布了全球首个微观空间智能(MiSI)基准测试——MiSI-Bench。该基准包含16.3万个问答对和59万张分子图像,系统评估视觉语言模型(VLM)感知和推理原子、分子等微观实体空间关系的能力。研究揭示了当前顶级AI模型在微观空间推理上的潜力与局限:经过微调后,模型在复杂空间变换任务上可超越人类,但在依赖深度领域知识(如氢键识别)的任务上仍有差距。这项工作为AI在药物设计、材料科学等领域的应用奠定了重要评估基础,是迈向科学通用人工智能(Scientific AGI)的
小米开源跨域模型MiMo-Embodied:融合自动驾驶与具身智能,29项基准SOTA
小米发布首个开源跨领域基础模型MiMo-Embodied,成功融合自动驾驶与具身智能技术,在29项基准测试中创下新纪录。该模型采用创新的四阶段训练策略,实现了两大领域能力的正向迁移,为构建统一物理世界认知系统开辟了新路径。
AtomWorld材料建模基准测试发布,标准化大模型原子级空间推理评估
AtomWorld材料建模基准测试由中国科学技术大学苏州高等研究院与新南威尔士大学等机构联合发布,首次构建了针对大语言模型原子级空间推理能力的标准化评估体系。该测试通过10类核心原子操作任务,系统评估模型在三维原子结构编辑中的表现,填补了该领域评测空白,同时兼具数据生成功能,为大模型在材料科学中的优化和应用提供重要支撑。
多模态大模型空间想象力评估:SpatialViz-Bench基准测试与数据污染分析
中科院自动化所与伦敦大学学院联合团队推出首个基于认知科学的空间可视化评估基准SpatialViz-Bench,采用程序化生成技术有效防止数据污染。该研究对27个主流多模态大模型进行测试,发现即使最强模型Gemini-2.5-pro准确率仅44.66%,远低于人类82.46%的水平。研究揭示两大关键发现:思维链提示在开源模型中反而降低性能,模型主要错误源于基础感知和空间变换能力缺失而非高级推理。这些发现为多模态大模型的未来发展指明了重要方向。
RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度
西湖大学ENCODE实验室联合多所高校提出RewardMap框架,通过多阶段强化学习和难度感知的细粒度奖励机制,有效解决多模态大模型在地铁图等密集视觉信息处理中的奖励稀疏问题。该技术在地铁路径规划任务中实现显著性能提升,在空间推理评估中取得13.51%的改进,为高分辨率视觉推理任务提供了可复用的强化学习范式。