第二代预训练范式崛起：世界建模与物理AI驱动机器人学变革

AI快讯 2026-02-05

世界建模引领AI新纪元：物理智能将重塑机器人学习范式

人工智能领域正迎来一场静默的革命。今日凌晨，英伟达高级研究科学家、机器人团队负责人范麟熙（Jim Fan）发表了一篇题为《第二代预训练范式》的深度文章，在机器学习社区激起了千层浪。这位业界重量级人物，正将目光投向现有技术范式的边界之外。

英伟达科学家Jim Fan提出第二代预训练范式概念图 — 范麟熙提出的范式转移示意图 | 图片来源：Jim Fan

范麟熙在文中尖锐地指出，当前以大语言模型（LLM）为代表的人工智能体系，其核心逻辑建立在「预测下一个词」的基础之上。这种第一代预训练范式虽然在文本生成和理解方面取得了前所未有的成功，但当我们将这些模型部署到充满不确定性的物理世界时，它们却显得格格不入，仿佛一位精通理论的学者突然被抛入需要动手操作的车间。

这一观察并非孤鸣。纽约大学助理教授、同时任职于谷歌DeepMind的研究科学家谢赛宁，也在社交媒体上表达了相似的见解，认为现有范式在物理交互方面存在根本性局限。

谢赛宁教授对AI范式转移的评论截图 — 谢赛宁教授对范式转型的评论 | 图片来源：社交媒体

从语言预测到物理模拟：范式转移的本质

那么，预训练的第二代范式究竟应该是什么模样？范麟熙给出了清晰的定义：世界建模（World Modeling），或者说「预测下一个物理状态」。

「我们正处于一个关键的转折点，」范麟熙在文章中写道，「但很少有人真正意识到这场变革的深远影响。目前，世界模型最广为人知的应用还停留在生成一些AI视频片段——甚至可能只是数字废料。但我坚信，2026年将成为『大世界模型』为机器人学乃至更广泛的多模态人工智能奠定坚实基础的元年。」

他进一步阐释了「世界建模」的核心概念：在特定动作的约束下，预测下一个（或未来一段时间内）合理的物理世界状态。视频生成模型是这一概念的初步体现——「下一状态」表现为一系列RGB帧（通常持续8-10秒，最长可达几分钟），而「动作」则是对预期行为的文本描述。训练过程涉及对数十亿小时视频数据中未来变化的建模。

从本质上讲，视频世界模型是可学习的物理模拟器和渲染引擎，它们能够捕捉「反事实」——这个高级术语指的是，在给定不同动作时，系统能够推理出未来演化的不同可能性。世界模型从根本上将视觉置于优先地位。

视觉优先 vs 语言优先：一场根本性的架构之争

与此形成鲜明对比的是视觉语言模型（VLMs），它们在本质上是「语言优先」的设计。从最早的LLaVA等原型开始，其基本叙事逻辑几乎没有改变：视觉信息通过编码器输入，然后被路由到语言主干网络中。尽管编码器在不断改进，架构也趋于简洁，视觉组件试图变得更加「原生」（如omni模型），但它始终像是系统中的「二等公民」，在物理规模上远远无法与业界多年来为大语言模型打造的强大能力相提并论。

「这条路径很便捷，因为我们知道LLM是可扩展的，」范麟熙分析道，「我们的架构直觉、数据配方设计以及基准测试（如视觉问答VQA）都高度针对语言进行了优化。」

他特别指出，在物理人工智能领域，2025年曾被视觉-语言-动作（VLA）模型主导：在预训练的VLM检查点之上，硬生生嫁接一个机器人电机动作解码器。这实际上是「LVA」架构——其重要性排序依次为语言 > 视觉 > 动作。同样，这条路径很方便，因为研究人员已经精通VLM的训练方法。

然而，VLM中的大部分参数都分配给了知识存储（例如「这团像素代表可口可乐品牌」），而非物理理解（例如「如果你打翻可乐瓶，液体会蔓延成一片褐色污渍，弄脏白色桌布，并可能损坏电机」）。VLA在设计上非常擅长知识检索，但在物理交互方面却显得「头重脚轻」。这种多阶段的嫁接设计也违背了范麟熙对系统简洁与优雅的追求。

生物学的启示：视觉如何主导智能

范麟熙从生物学角度提供了令人信服的论据：视觉主导了人类大脑的皮层计算。大脑皮层约有三分之一的部分专门用于处理枕叶、颞叶和顶叶区域的视觉信息。相比之下，语言仅依赖于一个相对紧凑的脑区。视觉是连接大脑、运动系统和物理世界的高带宽通道，它闭合了「感觉运动回路」——这是解决机器人问题的核心环路，而且这个过程完全不需要语言的介入。

「大自然给了我们一个存在性证明，」他写道，「那就是类人猿——一种具有极高肢体智能但语言能力微乎其微的生物。」

范麟熙分享了他的观察：「我曾见过类人猿驾驶高尔夫球车，像人类技工一样用螺丝刀更换刹车片。它们的语言理解能力可能比不过BERT或GPT-1，但它们的物理技能远超目前最先进的机器人系统。类人猿或许没有强大的语言模型，但它们肯定拥有极其稳健的『如果...会怎样』的心理图景：即理解物理世界如何运作，以及如何应对它们的干预。」

新时代的曙光：世界建模带来的根本变革

世界建模的时代已经到来，范麟熙认为这一转变充满了「苦涩的教训」的意味。正如加州大学伯克利分校教授Jitendra Malik经常提醒「规模崇拜者」的那样：「监督学习是AI研究者的鸦片。」YouTube的全部存量以及智能眼镜的兴起，将捕捉到规模远超人类历史所有文本的原始物理世界视觉流。

范麟熙预言，我们将见证：

一种新型预训练：下一个世界状态可能不限于RGB图像，3D空间运动、本体感觉和触觉感知才刚刚起步。
一种新型推理：发生在视觉空间而非语言空间的「思维链」。你可以通过模拟几何形状和接触点，想象物体如何移动和碰撞来解决物理难题，而无需将其转化为字符串。语言只是一个瓶颈，一个脚手架，而非根基。
一系列全新的根本性问题：即使有了完美的未来模拟，动作指令该如何解码？像素重建真的是最佳目标吗，还是我们应该进入另一种潜空间？我们需要多少机器人数据，扩展遥操作规模仍是标准答案吗？在经历过这些探索后，我们是否终于在向机器人领域的「GPT-3时刻」迈进？

「Ilya终究是对的，AGI尚未收敛，」范麟熙在文末写道，「我们回到了『研究的时代』，没有什么比挑战第一性原理更令人心潮澎湃了。」