具身智能

ViMoGen创新模型:提升3D人体动作生成泛化能力,赋能具身智能发展

本文介绍了由多所顶尖机构联合提出的ViMoGen创新框架,该框架通过构建大规模多样化数据集ViMoGen-228K、设计融合视频先验与动作捕捉先验的双分支模型,以及建立首个面向泛化能力的综合评测基准MBench,系统性地解决了3D人体动作生成领域泛化能力不足的核心瓶颈。这项工作不仅显著提升了AI根据复杂文本指令生成自然、合理3D动作的能力,更为具身智能的发展提供了高质量的动作数据生成与评估工具,有望加速人形机器人等领域的仿真训练与技能学习。

RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理

北京航空航天大学、北京大学等机构联合推出的多模态大模型RoboTracer,通过创新的解耦坐标表达、通用空间编码器和两阶段训练策略,使机器人具备了在复杂三维环境中进行多步、带真实尺度约束的推理能力,并能生成精确的空间轨迹。该模型在多项评测中大幅领先现有先进模型,并能灵活集成于不同机器人平台,为实现家用服务机器人的高级空间任务规划提供了关键技术突破。

它石智航发布全球首台自主刺绣机器人,以AI+全栈技术引领柔性精细制造新突破

2025年12月19日,它石智航发布了全球首台具备自主刺绣能力的机器人,展示了其在亚毫米级柔性精细制造上的突破。该技术成功应用于工业线束装配等复杂场景,标志着具身智能规模化落地取得关键进展。其核心依托于DATA-AI-PHYSICS三位一体的全栈解决方案,包括以人为中心的SenseHub数据采集系统、TARS AWE 2.0具身基础模型以及为AI而生的专用硬件体系,为行业提供了可复制、可扩展的工程化路径,推动具身智能从概念走向实用。

具身智能通用突破:情境数据采集驱动物理智能发展

本文探讨了具身智能发展面临的数据瓶颈,并重点介绍了深度机智公司通过“情境数据采集”模式破解这一难题的创新实践。文章指出,传统数据采集方式导致模型过拟合,而基于人类第一视角、融入丰富环境上下文的情境数据,能让AI理解动作背后的逻辑,实现技能的泛化迁移。深度机智与高校合作建立示范中心,利用自研DeepAct引擎大规模采集真实场景数据,为构建通用的物理智能系统奠定坚实的数据基础,推动机器人从机械模仿走向真正的自主智能。

2025浦东AI人才论坛:青年力量驱动张江AI创新与具身智能发展

2025年12月6日,“青年聚力·智汇浦东”人工智能产业人才论坛在上海张江科学会堂成功举办。论坛汇聚产、学、研各界精英,通过产业推介、项目签约、主旨演讲、圆桌对话及报告发布等形式,深入探讨了以张江AI创新小镇为核心的产业生态建设、具身智能的进化路径与生态构建、AI顶尖人才“引育并举”新范式,以及青年力量如何推动AI理论向产业价值跃迁。会上发布的《2025浦东新区人工智能人才发展趋势报告》揭示了AI人才高学历、高薪酬、青年化的特点及未来巨大需求缺口。本次论坛为上海建设全球人工智能高地注入了新的思想动力与创新

任少卿教授领衔中科大全球招募AI人才,聚焦Faster R-CNN与通用人工智能研究

中国科学技术大学任少卿教授领衔的通用人工智能研究所(筹)面向全球招募人工智能高端人才,涵盖教授、研究员、博士后、工程师及学生等多个岗位。研究所聚焦Faster R-CNN、世界模型、具身智能等前沿方向,提供上海与合肥两地工作选择及顶级科研资源,旨在开展原创性、颠覆性研究,诚邀海内外学者共创顶尖成就。

理想AI眼镜Livis发布:蔡司镜片与AI助手定义全天候智能生活伙伴

2025年12月3日,理想汽车发布其首款AI眼镜Livis,该产品全系搭载蔡司高品质镜片,起售价1999元。Livis以仅36克的超轻设计实现全天候无负担佩戴,集成了第一视角闪电抓拍、开放式空间音频、基于MindGPT-4o的“理想同学”AI助手及自研Livis OS系统。它不仅是理想汽车智能体验向车外生活的自然延伸,实现与车机的无缝联动控制,更是理想在具身智能领域的重要探索,旨在成为用户工作与生活中的全天候智能伙伴。

智平方携AlphaBot 2亮相沙特ITSA,以具身智能助力Vision 2030产业升级

中国通用智能机器人企业智平方(AI² Robotics)在沙特阿拉伯最大的工业科技盛会ITSA上首次亮相,其搭载自研GOVLA大模型的AlphaBot 2机器人以稳定的实景任务演示成为焦点。机器人展示了在复杂环境下端到端完成咖啡制作等任务的能力,体现了其“万能助手”的通用智能潜力。创始人郭彦东博士作为唯一受邀中国企业家发表演讲,阐述“仰望星空,脚踏实地”的发展理念,强调真实场景数据与量产硬件的结合。智平方的“模型×硬件×场景”三位一体能力,与中国已验证的落地经验,高度契合沙特“2030愿景”对智能化产业升

空间智能再进化:Spatial-SSRL与LVLM推动自监督强化学习下的空间理解

上海人工智能实验室联合多所高校研发的Spatial-SSRL技术,通过创新的自监督强化学习范式,无需外部标注即可显著提升视觉大语言模型的空间理解能力。该技术基于RGB和RGB-D图像构建五种自监督任务,在Qwen2.5-VL和Qwen3-VL架构上实现平均3.89%-4.63%的性能提升,同时完美保持模型原有通用视觉能力,为自动驾驶和具身智能等领域提供了低成本、高效率的空间智能解决方案。