自变量机器人:自研端到端架构,构建具身智能物理世界基础模型

AI快讯 2026-01-15

自变量机器人具身智能模型示意图
国内具身智能领域的竞争焦点,正从机器人的移动与导航能力,转向更为核心的「大脑」——即操控与决策智能。

2026年初,行业传来重磅消息:自变量机器人成功获得来自字节跳动与红杉资本的联合投资,融资规模高达10亿元人民币。尽管自变量是一家坚持软硬件一体化的机器人公司,但此次融资背后,真正打动投资机构的,或许是该公司对于机器人「智能大脑」的前瞻性构想与独特技术路径。

与此前专注于 locomotion(移动)和 navigation(导航)的技术竞赛不同,由「大脑」主导的 manipulation(精细操作)任务,要求机器人与物理世界进行高频、深入的交互。每一个看似简单的动作,如抓取、放置、拧转,都充满了随机性与不确定性。这也解释了为何在观赏了多年机器人跳舞、跑酷的炫技演示后,业界依然在等待一个能在复杂自主操作上令人惊艳的突破性成果。而这项「自主操作」能力,恰恰是机器人能否走出实验室、大规模融入人类生产生活场景的关键所在。

在自变量技术团队看来,操作任务的极端复杂性决定了,未来的机器人必须拥有一个由「物理世界基础模型」驱动的强大「大脑」。这个「大脑」绝非简单地将诸如DeepSeek之类的大型语言模型「塞入」机器人躯体那般简单。它不应被视作现有AI模型的「应用层」,而是一种与语言大模型、多模态大模型等「虚拟世界模型」平行且独立存在的全新范式。

对于这一新范式的形态与构建方法,自变量已经形成了一套系统化的方法论,并通过自主研发取得了阶段性成果。这些大胆的探索与实践,有望为整个具身智能领域注入新的活力与变量。

具身智能:超越AI下游应用的独立范式

近年来,机器人智能的演进在很大程度上得益于语言模型与多模态模型的赋能。因此,一种普遍的观点认为,具身智能仅仅是AI模型的一个应用方向。然而,自变量创始人兼CEO王潜多次在公开场合指出,这种认知存在根本性的偏差。

一个生动的例子可以说明问题:面前有两个矿泉水瓶,一个瓶盖拧紧,另一个则未完全拧紧。仅凭视觉观察,它们在图像中的差异微乎其微。然而,一旦拿起瓶子并进行翻转或倾倒操作,结果便截然不同——一个滴水不漏,另一个则会洒出水来。

拧紧与未拧紧瓶盖对比示意图

物理世界中真正关键的信息,往往隐藏在这些「视觉难以分辨却深刻影响行为结果」的细微之处。这类差异只有在与真实世界发生动态交互时才会暴露无遗,无法通过静态观测轻易获知。

更为复杂的是,此类关键信息通常不会在动作执行的当下即刻反馈。例如,「拧瓶盖」这个动作本身并不会立即产生可见的状态变化,真正的区别要到后续的「倒水」或「摇晃」等操作中才会显现。这对模型提出了更高的要求:它必须具备在时间维度上串联起一系列感知、动作与结果的能力,而非孤立地处理某个瞬间的输入与输出。

这正是物理世界对智能体提出的一个核心挑战:模型不仅需要感知当下,还必须能够处理并理解长序列的行为,洞悉因果关系如何在时间流逝中逐步展开。否则,它将永远无法掌握那些「当前无法察觉、但未来会导致问题」的底层物理规律。

在许多现实任务中,挑战还不止于时间跨度的延长。机器人常常需要在行动开始前,就对未来可能发生的情景进行某种形式的推演与预判。例如,在倒水前需要预估瓶子是否漏水;在整理杂乱桌面时,需要规划物品移动的先后顺序。这类判断并非对当前状态的直接反应,而是对「一系列动作将引发何种后果」的内部模拟与计算。

正因如此,主要依赖静态文本或图像信息训练而成的语言模型或多模态模型,在应对充满连续变化、随机扰动且部分状态不可直接观测的物理世界时,往往显得捉襟见肘。它们难以真正理解「拧紧」与「未拧紧」在物理后果上的本质区别。

在自变量看来,这并非通过为现有模型「打补丁」就能解决的问题,它指向了一个更为根本的结论:我们亟需一种「诞生于物理世界、服务于物理世界」的基础模型。这类模型应当与语言模型、多模态模型并列,构成智能的第三大支柱,而非作为它们的下游应用。自变量的长期目标,正是致力于打造这样一个专属于物理世界的基础模型。

构建物理世界基础模型的两大核心:端到端架构与通才能力

要构建这样的模型,自变量认为有两个原则至关重要:

第一,必须采用统一的端到端架构。真正的物理智能需要系统对世界形成整体性、具身化的理解,而非模块化知识的机械拼接。

以人类使用锤子为例,我们的注意力焦点在于「木头」、「钉子」和「将钉子敲入」这个目标,而「锤子」本身作为一种工具,已完美融入行动流程,在认知层面「隐退」。然而,对于许多现有机器人系统,过程恰恰相反:每次使用工具,都需要重新经历「识别物体(这是锤子)→ 理解功能(锤子用于敲击)→ 规划动作(如何挥舞)→ 执行操作」这一整套割裂的流程。自变量认为,这种基于模块拼接的范式,永远无法实现人类那种直觉、流畅的工具使用体验。

究其根源,这种局限源于传统的分层式系统架构:视觉模块先将世界压缩成特征向量,语言模块随后尝试理解,规划模块再根据理解结果生成动作指令。在这一连串的信息传递中,各个模块之间无法「看见」或「听见」彼此真正关切的上下文。每经过一次模块转换,关于环境细节、物体关联和物理直觉的信息就会被损耗一层,其效果犹如让一位盲人转述一幅油画的意境给一位聋人。

这就不难理解,为何自变量自创立之初便是「端到端」技术路线的坚定拥护者。他们深信,唯有让信息在统一的计算空间内自由流动,系统才能发掘出不同模态、不同任务之间深层的、隐藏的关联。尽管这一选择在早期曾面临诸多质疑,但如今,包括Google Robotics、Physical Intelligence在内的全球顶尖具身智能团队,都已纷纷拥抱这一方向。

第二,模型必须追求极致的通用性(通才模型)。只有让模型接触并学习大量、多样化的任务,它才能被迫提炼出物理世界中共性的结构与规律。

这条路径已在语言模型的发展中得到验证。业界发现,相较于为翻译、问答、写作等任务分别训练专用模型,将所有任务置于同一个大模型中进行训练,反而能使模型学到更底层的语言逻辑与世界常识。物理世界的学习同理。当模型同时学习抓取、推拉、堆叠、装配等纷繁复杂的任务时,它会被驱动去发现这些任务背后共享的「元规律」——如牛顿力学、材料属性、因果链条等。一旦掌握了这些共性,模型学习新任务所需的数据量将大幅减少,甚至可能催生出意想不到的「涌现」能力。

回顾语言模型的成功,一个常被忽视的关键在于它找到了一个完美的训练目标(损失函数)——预测下一个词。这个简洁的目标,巧妙地将海量文本中的语法、逻辑与常识压缩进了模型参数之中。

然而,机器人面临的局面更为复杂:它的训练目标应该是什么?

自变量认为,不能仅仅满足于「预测下一个动作」。如果只预测动作,模型极易退化为一个高级的「模仿者」,它学会了动作的外形,却不理解其内在的物理原理。真正的突破点在于:将训练目标从「动作预测」升级为「多模态状态预测」。

当模型尝试去预测「如果我推开这个杯子,下一瞬间的视觉画面会怎样变化?指尖的触觉反馈将如何消失?」时,它实际上是在强迫自己内化物理世界的因果律,将世界的复杂性压缩进自身的表征之中。

这也解释了为何自变量的核心模型WALL-A并非仅仅输出动作指令。它同时具备用自然语言与人交互的能力,可以根据单张图片重建三维场景,还能像「世界模型」一样对未来的状态进行预测。这些能力看似多样,但其底层逻辑是统一的:一个真正理解了物理世界的模型,理应能够以多种方式展现这种理解——无论是控制机械臂完成精细操作,还是用语言描述正在执行的任务,或是预测物体的运动轨迹。在WALL-A模型上,我们已经能够窥见自变量所构想的物理世界基础模型的雏形。

WALL-A模型应用场景演示

应用案例:外卖即时配送
以外卖配送这一复杂商业场景为例,自变量的机器人在完全开放的室外街道与室内楼宇中,执行从外卖柜取餐、拆箱、垃圾回收、室内自主导航、电梯交互到最终将餐品交付给顾客的全流程任务。机器人需要实时应对川流不息的人潮、动态变化的环境以及各种突发干扰。这一切都基于其统一的端到端具身智能模型完成,实现了超长序列操作的自主决策与执行。这不仅体现了该模型强大的泛化与适应能力,更标志着具身智能技术首次在真实、高频、强约束且具有严格时效要求的商业场景中达成稳定、可靠的运行,完成了从实验室原型验证到规模化商业部署的关键一跃。

开源生态下的「自研」坚守

除了对「机器人大脑」的独特见解,自变量在业内另一个引人注目的特质,是其对核心技术,尤其是基础模型坚持自主研发的执着。

在许多公司看来,这种投入或许并非当务之急。毕竟,市场上已有如Physical Intelligence开源的Pi系列、英伟达开源的GRoot等优秀的开源模型可供选择,这也成为许多具身智能厂商的主流方案。

然而,自变量对「自研」的坚持,源于一个更深层的战略判断:具身智能下一阶段的竞争,本质上是基于数据闭环构建与迭代进化能力的基础模型之争。如果核心模型不掌握在自己手中,所谓的竞争优势便无从谈起。

见证过大型语言模型发展历程的从业者对此应有深切体会——这个行业最大的变革驱动力与价值壁垒,往往就蕴藏在基础模型的内核之中。过去几年,尽管如Cursor等应用层产品大放异彩,但其核心「智能」高度依赖于上游如Claude或GPT等模型的能力边界。一旦上游模型更新升级,下游应用便不得不被动调整;若API定价策略发生变动,整个产品的成本结构可能面临重构。

对于机器人领域,这个问题则更为深刻:真实物理世界中的重量感、摩擦力、空间关系等「具身知识」,无法从互联网的文本语料中直接习得。必须建立起从真实世界数据采集、清洗、标注到模型架构设计、训练、部署的完整自研体系。选择在基础层进行重投入,看似是一条更漫长、更艰辛的道路,但历史经验一再表明:原始创新者定义游戏规则,而跟随者只能适应规则。

目前,自变量已成功自主研发了两款核心模型:主打高性能的主模型WALL-A,以及面向轻量化应用的WALL-OSS。该系列模型在架构上首创了视觉语言动作模型与世界模型的深度融合范式,并率先实现了具身多模态思维链技术。

值得一提的是,自变量秉持开源精神,将轻量化的WALL-OSS模型向社区开放。同时,他们围绕WALL-OSS等全球具身智能开源项目,发起了一项名为「具亮计划」的黑客松活动。该计划旨在鼓励开发者利用开源的基础模型,亲身体验从数据采集、策略训练到在真实机器人上部署并完成任务的完整技术链路。

具亮计划黑客松活动示意图

这类活动在国内具身智能领域具有积极的推动作用。从大语言模型的发展历程来看,繁荣的技术社区与开放的开源文化至关重要。具身智能领域同样需要培育属于自己的「DeepSeek」,以加速整个生态的创新与成熟。

结语:重走「婴儿」的学习之路

目睹语言模型以惊人的速度发展,许多人不禁思考:为何机器人的「智能涌现」时刻迟迟未到?

一个可能的答案是:语言本身是一种被人类文明高度提炼和压缩的符号系统。几千年来,人类已将世界的复杂性与知识「预处理」成了文字和语法。语言模型要做的,是学习这套现成的、高效的编码规则。然而,物理世界没有这样的「捷径」。重力、摩擦、弹性形变、流体力学……这些底层规律从未被完整地、显式地书写成册,它们无声地蕴含在每一次抓握、每一次碰撞、每一次推拉的细微体验之中。

这意味着,构建物理世界基础模型的征程,在某种程度上是在重走人类婴儿认知世界之路——通过感官与动作的无限次交互,逐步构建起关于这个世界的、内化的、可操作的模型。物理世界基础模型所要学习的,正是那些人类「能够娴熟操作却难以精确言说」的隐性知识,而这或许才是智能更为本源的形态。

这条路注定漫长,布满了挑战,但也正因为其深邃与复杂,而显得无比迷人。自变量机器人,正以其清晰的愿景与扎实的研发,坚定地行走在这条探索之路上。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/6728e455-4c98-4438-9afb-cec4756626f6

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章