统计物理视角:大模型第一性原理与能量模型泛化分析

AI快讯 2025-12-12

白铂 博士,华为2012实验室理论研究部主任、信息论首席科学家

自2022年底ChatGPT横空出世以来,人工智能领域经历了前所未有的变革。2024年底,DeepSeek以惊人的成本效益比再次刷新了行业认知。在短短数年间,大模型技术以惊人的速度迭代进化,其能力边界不断拓展。仅在美国,AI领域的年度投资规模就已超越许多国家全年的GDP总量。2025年底,Google强势推出Gemini 3,不仅模型性能实现质的飞跃,其TPU训练范式更对英伟达构建的生态系统发起了颠覆性挑战。

业界普遍将Gemini 3视为迈向通用人工智能(AGI)乃至超级人工智能(ASI)的关键里程碑,堪称人类与机器协同创造的惊人成果。然而,正如OpenAI联合创始人Ilya Sutskever在近期访谈中指出的:大模型的扩展定律(Scaling Law)终将如同摩尔定律一样,受限于物理规律而逐渐失效。因此,如何揭开大模型训练的“黑箱”,洞察其底层运行机制,并回答“大模型是否已逼近能力极限”这一根本性问题,已成为当前最紧迫的学术挑战。遗憾的是,既往研究多局限于单一理论维度,导致我们对大模型原理的理解如同盲人摸象,难窥全貌。

2025年11月3日,我们在预印本平台arXiv上发布了一篇题为《Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs》的论文。这项研究创造性地将统计物理、信号处理与信息论三大领域深度融合,系统性地阐述了我们对于大模型背后数学原理的思考与理解,旨在为全面揭示大模型的“第一性原理”带来新的曙光。近期,我们已在多个重要学术会议上报告了相关研究成果:

  • 11月2日:中国电子学会第32届信息论学术年会
  • 11月15日:中国工业与应用数学学会第3届信息通信数学及应用大会
  • 11月17日:第二届张量方法在数学与人工智能计算中的会议-学校
  • 11月29日:福州大学图论与组合研讨会

会议期间,我们与众多专家学者进行了深入交流,收获了诸多宝贵反馈。同时,论文也发送给了海内外的同行评审,获得了许多建设性意见。然而,原论文因涉及领域广泛、概念体系复杂,加之行文风格高度学术化,对大多数读者而言显得晦涩难懂。

为促进理解,我们计划撰写一个系列文章,以通俗易懂的语言解读这篇论文的核心思想,并补充一些原文未涵盖的内容。该系列预计至少包含三篇专题文章:

系列一:统计物理视角下的第一性原理

  • Attention模块与Transformer架构均可通过统计物理中的能量模型进行描述。因此,推理过程本质是寻找能量函数最小的下一个Token;而训练过程则是逼近平均能量函数最小的参数配置。
  • 大模型的记忆容量随模型参数线性增长而呈指数级扩张。这解释了为何小型模型也能具备强大能力,但也因其记忆容量接近上限,增量训练极易引发模型崩溃。
  • 大模型泛化误差上界的核心参数是Logits绝对值之和。因此,在进行模型压缩(如剪枝、知识蒸馏、量化)时,必须审慎评估其对Logits的影响。
  • 大模型的能力极限在于时间序列层面的Granger因果推断。这意味着扩展定律仍将持续生效,但模型无法自主产生真正的符号化思维、概念抽象及逻辑推理能力。

系列二:信号处理视角下的第一性原理

  • 大模型的输入是向量化的Token序列,从而将基于概率统计的自然语言处理问题转化为更易于数值计算的信号处理问题。
  • 向量内积刻画了Token间的语义关联性。因此,Gromov-Wasserstein距离天然适用于度量语义向量空间的距离,而Johnson-Lindenstrauss引理与压缩感知技术可用于语义压缩与降维。
  • 大模型的根本目标是预测下一个Token。因此,可以引入倒向定向信息作为优化目标,以实现信息论意义下最优的Token向量化表示。
  • Transformer本质是一种时变向量自回归时间序列模型,它建模的是作为时间序列的自然语言。因此,预测下一个Token可视为时间序列层面的Granger因果推断。

系列三:信息论视角下的第一性原理

  • 大模型在信息论层面的抽象是一个有状态、带反馈的信道。因此,任何符合该抽象结构的系统(未必是神经网络)都能达到同等效果。
  • 大模型的端到端性能指标以定向信息为基础,涵盖预训练阶段的定向速率-失真函数、后训练阶段的定向报酬-失真函数以及推理阶段的定向信息密度。这表明,只需将核心概念从“比特”转换为“Token”,即可在香农信息论框架下系统研究大模型。
  • 大模型在推理阶段可定义其语义信息容量。因此,上下文工程(或提示词工程)的信息论本质,是通过优化上下文的概率分布以逼近语义信息容量,这与信道编码逼近香农容量的思想一脉相承。
  • 定向信息是Granger因果强度的度量。因此,统计物理、信号处理与信息论三个维度的分析共同印证:大模型的能力极限即时间序列维度的Granger因果推断。

需要特别说明的是,我们的研究绝非否定大模型的巨大价值。它无疑是一个极其强大的工具,在当前形态下已能极大提升人类整合与处理信息的效率,这是不容置疑的事实。我们旨在探讨当前大模型背后的第一性原理,从而清晰界定其能力边界,并为面向未来的技术路径提供理论指引。

神经网络与统计物理的深厚渊源

2024年诺贝尔物理学奖授予了John Hopfield与Geoffrey Hinton,以表彰他们“在人工神经网络机器学习方面的基础性发现与发明”。许多人对此感到不解,甚至部分AI领域的研究者也认为诺贝尔奖在“蹭热点”。然而,从早期的Hopfield网络开始,神经网络与统计物理之间便存在着深刻而本质的联系。

Hopfield本人就是一位物理学家。他于1982年提出的Hopfield网络,其联想记忆能力震撼了当时的学术界。这一突破性工作重新点燃了全球对神经网络与人工智能的研究热情,为AI研究走出“寒冬”做出了不可磨灭的贡献。被誉为“AI教父”的Hinton,则是首位认识到统计物理方法在神经网络中具有巨大潜力的计算机科学家。1985年,他与合作者共同提出了玻尔兹曼机,其关键创新正是引入了统计物理中的能量模型。

除了这两位诺奖得主,女物理学家Elizabeth Gardner的贡献也至关重要。1988年,Gardner连续发表三篇论文,系统研究了Hopfield网络的记忆容量问题——即网络究竟能记住多少个随机模式。后人将这一容量称为“Gardner容量”。她所采用的方法,正是统计物理中的自旋玻璃模型与复本方法。而复本方法的提出者,正是2021年诺贝尔物理学奖得主Giorgio Parisi。今年,我们与他进行了一场深度访谈,深入探讨了AI与统计物理之间的内在联系。

Attention模块的能量模型形式

业界已逐步达成共识:大模型的终极目标只有一个——预测下一个Token。Transformer架构是当前实现这一目标最有效的框架。考虑一个仅含解码器的Transformer,按其数据处理流程,可分解为Attention和前馈网络两大核心模块。本节将聚焦于Attention模块。

假设输入提示词的长度为n,用向量序列表示。当前需要预测第i个Token,表示为向量。为简化表达,令。那么,Attention模块的输出可表示为:

其中是注意力权重,是值向量。根据softmax函数的定义,可展开为:

这里,表示查询向量,则表示键向量。它们的内积,量化了在预测时,用查询所得的语义匹配程度。若令,则有:

这在数学上称为双线性型,是基于内积建模非对称关系的最简形式。因此,Attention机制能够有效捕捉自然语言中两个Token之间的非对称语义关联。

其中的softmax函数至关重要。基于Jaynes的极大熵原理,softmax函数导出的分布,是在给定均值约束(或神经网络平均激活程度)条件下,熵最大的离散分布。通俗地说,softmax函数的输出,是在“最不确定”的条件下做出的“最可靠”估计。如果这个估计本身是可靠的,那么结果就非常可信。

遵循Hinton的思路,我们可以写出Attention模块的能量模型形式。定义能量函数:

那么,关于Attention机制的玻尔兹曼分布可写为:

其中T是温度参数,是Attention模块的配分函数,即:

从这个视角看,Attention机制的关键之一在于学习一个参数配置B,使得语义相关性最高等价于能量函数最低。这一逻辑与基于隐变量J的Attention变分推理解释(即证据下界ELBO)完全吻合。详细推导请参见论文相关章节,此处不再赘述。

以上分析至少带来两点启示:

  • Mamba/Mamba2等线性注意力机制虽能大幅降低计算复杂度,但无法有效建模Token间的语义非对称性,因此模型能力大打折扣是情理之中。这也解释了为何Qwen3-Next等模型采用了混合注意力机制。
  • 如何在保持语义非对称建模能力的前提下降低计算复杂度,是当前的研究重点。稀疏注意力机制是热点之一。DeepSeek-V3.2已成功应用了称为DSA的稀疏注意力机制,并取得了优异效果。从数学上看,最优的稀疏注意力可归结为求解如下优化问题:

Transformer架构的能量模型形式

参照Attention模块的能量模型形式,我们同样可以构建整个Transformer的能量模型,从而为后续推导记忆容量、泛化误差界以及分析推理能力奠定基础。这里,我们将FFN模块抽象为函数,并用表示所有权重矩阵和偏置向量的集合。定义能量函数:

事实上,正是输入到softmax函数的Logits。那么,Transformer的玻尔兹曼分布可写为:

其中T是温度,是Transformer架构的配分函数,即:

这里,S代表所有可能Token的集合。在机器学习中,S常被称为词表;在信息论中称为码本;在通信领域则体现为星座图。因此,大模型推理的本质,就是寻找使能量函数最小(即玻尔兹曼分布最大)的下一个Token。而在训练阶段,目标则是找到一组参数配置,使得在训练集上的平均能量函数最小。

Transformer的记忆容量探析

最初的Gardner容量描述了Hopfield网络能够记住的随机模式数量,即长度为N的随机序列的数量,其中N是网络的神经元数量。令表示模型成功记住的随机模式数量,我们定义广义Gardner容量如下:

其中,是一个归一化函数,在原定义中并不存在。有趣的是,若将“记住的模式”替换为“成功传输的模式”,并将取为对数函数,那么广义Gardner容量就转化为了香农容量。事实上,信息论专家、1990年香农奖得主Thomas Cover早在1965年就曾解决过Gardner容量的一个特例。需要指出,Gardner等人使用的复本方法体现了物理学家的天才直觉,但在数学上并非完全严格。2024年阿贝尔奖得主、数学家Michel Talagrand在统计物理领域造诣深厚,他运用严格的数学方法系统研究了多层感知器和Hopfield网络的原理,推导了球面模式和离散立方体模式下的Gardner容量。这些物理方法与数学工具,为彻底揭开大模型黑箱之谜奠定了坚实的理论基础。

关于Transformer的记忆容量,学界已取得一些初步成果:

  • Attention模块的记忆容量:近期研究表明,Attention模块通过学习记住了。该研究还证明,通过设计新的能量函数,Attention机制可等效为一个连续变量的现代Hopfield网络,从而得出Attention模块的记忆容量随参数量线性增加而指数增长的结论。这意味着模型无需过于庞大即可无差错地记忆海量知识,同时也解释了为何小模型仍能具备强大能力。然而,正因小模型记忆的模式数量更接近其容量上限,对其进行增量训练异常困难,稍有不慎便会导致模型崩塌。
  • FFN模块的记忆容量:一些研究认为FFN层记住的是(键,值)对,是大模型以参数化形式存储知识的核心区域,因而对模型能力至关重要。基于此,模型编辑技术通过直接修改FFN层的对应参数来更新目标知识,从而避免了复杂的重新训练。

近年来,“能力涌现”常被用来描述大模型“越大越好”的现象。从Gardner容量的角度看,其本质可理解为:当参数量增加使得模型记忆的知识量超过某个临界阈值时,便发生了统计物理中的“相变”现象。事实上,Parisi教授也是从相变角度研究香农容量的,并指出:即使通信速率低于信道容量,也存在计算上困难的区域。因此,通过统计物理方法,有望从理论上解释模型规模与模型能力之间的尺度定律,并最终阐明能力涌现的相变机制。

Transformer的泛化误差界

泛化误差是衡量大模型实际性能的关键指标。基于Transformer的能量模型形式,我们可以从理论上推导其泛化误差上界。详细的数学证明参见论文对应章节,主要运用的数学工具是Rademacher复杂度和Talagrand不等式:

  • Rademacher复杂度的核心思想是考察模型对纯随机序列的拟合能力。该序列以0.5的概率取值于{−1, 1},称为Rademacher序列。后续将看到,Rademacher复杂度项在泛化误差界中扮演核心角色。
  • 前文提到的数学家Talagrand,发展了“泛型链”理论,能够对一类非常广泛的随机过程的上确界给出极其精确的估计,深刻改变了人们对随机性和高维空间的理解。

交叉熵是训练中广泛使用的损失函数。在推理阶段,我们仍可用交叉熵来衡量大模型输出的Token分布与人类期望分布的差异。固定一个输入的Token序列,用表示大模型推理输出的第i个Token的概率分布,则表示人类对应的理想输出分布。考虑K个独立样本(即进行K次第i个Token的推理)。那么,对于任意δ>0,应用Talagrand不等式,交叉熵损失函数能以至少1-δ的概率被以下不等式控制:

其中是经验交叉熵损失,在训练阶段已被最小化。不等式右侧第二项是Rademacher复杂度的具体形式,其核心是能量函数(即Logits)的绝对值之和,其中是人类在第k次推理中预测的第i个Token的向量表示。该不等式表明,对大模型进行的任何小型化操作(如剪枝、蒸馏、量化),都必须审慎评估其对能量函数(Logits)的影响,因为这将直接决定模型的泛化误差上界。由此可见,基于微观参数配置定义的能量函数,的确能够刻画大模型的宏观能力——即推理泛化性能。

大模型推理能力与Granger因果

2003年诺贝尔经济学奖得主Clive Granger自1980年起的一系列工作,给出了因果关系的一个一般化定义,后被称为Granger因果。令表示时刻i整个宇宙的所有知识,则表示一个“修改后”的宇宙在时刻i的所有知识,这里的“修改”指的是从中排除了时间序列。那么,称引起了,如果:

这个定义非常普适但缺乏可操作性。随后,Granger提出了一系列具体方法来检验两个时间序列之间是否存在Granger因果关系。这些方法已被广泛应用于物理学、神经科学、社交网络、经济学和金融学等领域。

结合前文对大模型记忆容量的讨论,在推理阶段,可表示为大模型记住的所有知识,加上输入的Token序列和已生成的Token序列;而仅包含大模型记住的知识。显然,在上述推理过程中,不等式恒成立。因此,大模型推理的本质,正是通过“预测下一个Token”这一看似简单的训练目标,实现了逼近人类水平的Granger因果推断。然而,机器学习领域著名学者Judith Pearl教授指出:Granger因果并非真正的因果关系,而属于一种具有时间顺序的统计关联。由此,我们可以得到一个重要推论:大模型的能力极限在于时间序列维度的Granger因果推断。这意味着扩展定律仍将持续,但大模型无法从数据中自主地抽象概念并进行符号化,也不具备真正的逻辑推理能力。

后续篇章预告

为了用信息论度量来量化两个时间序列间的Granger因果性,物理学界提出了“传递熵”的概念。从序列到序列的传递熵定义为:

其中L为相互影响的长度。后续研究进一步证实:对于向量高斯自回归过程,传递熵与Granger因果是等价的。另一方面,传递熵也是有限长度版本的“定向信息”。这一概念由1988年香农奖得主James Massey于1990年提出,他在论文中也深入探讨了带反馈通信系统的因果性问题。由此,我们引出了本系列后续两篇文章的核心内容:

  • 系列第二篇(信号处理篇)将深入探讨向量自回归时间序列与大模型之间的深刻联系。
  • 系列第三篇(信息论篇)将以“定向信息”为核心,探讨一种与具体结构无关、更为抽象和本质的大模型第一性原理。

想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/6e4edae9-6482-4013-a7a3-148d68629aa1

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章