多模态大模型
RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理
北京航空航天大学、北京大学等机构联合推出的多模态大模型RoboTracer,通过创新的解耦坐标表达、通用空间编码器和两阶段训练策略,使机器人具备了在复杂三维环境中进行多步、带真实尺度约束的推理能力,并能生成精确的空间轨迹。该模型在多项评测中大幅领先现有先进模型,并能灵活集成于不同机器人平台,为实现家用服务机器人的高级空间任务规划提供了关键技术突破。
机器之心回顾2025全球AI顶会与展望2026学术社区趋势
本文回顾了机器之心在2025年围绕ICLR、CVPR、NeurIPS等全球顶级AI会议,在8座城市举办的11场社区活动,包括深度论文研讨和人才交流Meetup,成功构建了连接全球研究者的有温度平台。同时,文章展望了2026年,计划推出更丰富的活动系列,如“AI顶会Happy Hours”,并诚邀科技企业、高校及投资机构等合作伙伴加入,共同深化AI学术与产业生态的连接与合作。
北京人形机器人开源Pelican-VL 1.0:DPPO训练突破多模态理解,性能逼近闭源系统
北京人形机器人创新中心开源了具身智能视觉语言模型Pelican-VL 1.0,该模型采用创新的DPPO训练范式,在1000+ A800 GPU集群上训练,性能提升20.3%,超越同类开源模型10.6%,平均性能超过GPT-5和Google Gemini等闭源模型。模型具备强大的多模态理解、时空认知、具身交互和自我纠错能力,为机器人产业提供了可复用的训练范式和开源基础,推动具身智能从实验室走向产业化应用。
多模态大模型空间想象力评估:SpatialViz-Bench基准测试与数据污染分析
中科院自动化所与伦敦大学学院联合团队推出首个基于认知科学的空间可视化评估基准SpatialViz-Bench,采用程序化生成技术有效防止数据污染。该研究对27个主流多模态大模型进行测试,发现即使最强模型Gemini-2.5-pro准确率仅44.66%,远低于人类82.46%的水平。研究揭示两大关键发现:思维链提示在开源模型中反而降低性能,模型主要错误源于基础感知和空间变换能力缺失而非高级推理。这些发现为多模态大模型的未来发展指明了重要方向。
RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度
西湖大学ENCODE实验室联合多所高校提出RewardMap框架,通过多阶段强化学习和难度感知的细粒度奖励机制,有效解决多模态大模型在地铁图等密集视觉信息处理中的奖励稀疏问题。该技术在地铁路径规划任务中实现显著性能提升,在空间推理评估中取得13.51%的改进,为高分辨率视觉推理任务提供了可复用的强化学习范式。