北航研究揭示代码大模型训练中编程语言差异,优化数据配比提升多语言协同效率
北航研究颠覆认知:代码大模型训练中,每种编程语言都至关重要
本文基于北京航空航天大学、中国人民大学与九坤投资联合发表的论文《Scaling Laws for Code: Every Programming Language Matters》的核心发现整理而成。
在代码大模型的预训练领域,一个长期存在的惯性思维是将所有编程语言的代码视为同质的文本数据,训练的核心策略往往聚焦于数据总量的简单堆叠。然而,现代软件开发的现实是多语言混合编程,不同语言在语法结构、语料规模及适用场景上存在天壤之别。若忽视这些本质差异,机械地套用通用的扩展定律,不仅会导致模型性能预测出现偏差,更会造成宝贵的计算资源被无谓地浪费。
为了揭开这一“黑箱”,研究团队投入了相当于33.6万个H800 GPU小时的巨大算力,进行了超过1000次系统性实验。研究横跨了从0.2B到14B的模型参数量级,以及高达1万亿Token的训练数据规模,对Python、Java、JavaScript、TypeScript、C#、Go、Rust这七种主流编程语言进行了深度解构。这项工作的里程碑式贡献在于,首次建立了区分语言特性的扩展定律,并在此基础上,推导出一套可通过数学求解的最优多语言数据配比方案。

- 论文标题:《Scaling Laws for Code: Every Programming Language Matters》
- 论文链接:https://arxiv.org/abs/2512.13472
语言特异性:Python展现巨大潜力,Rust则快速收敛
研究首先挑战了“所有编程语言生而平等”的朴素假设。通过为每种语言独立拟合类似Chinchilla的扩展定律公式,研究者清晰地揭示了不同语言在训练动力学上的显著分野。
具体而言,以Python为代表的动态解释型语言,展现出更高的扩展指数。这意味着,随着模型参数和训练数据的增加,Python代码模型的性能提升空间最为广阔,堪称“算力与数据的饕餮”。相反,以Rust为代表的强类型编译型语言,得益于其严谨的语法和内存安全规则,模型能更快地掌握其核心模式,在较小规模下即可达到较低的损失,但也因此更早进入性能增长的平台期,边际收益递减更为迅速。
此外,研究引入“不可约损失”这一概念来量化每种语言的内在复杂度。结果显示,各语言按内在可预测性从高到低排序为:C# < Java ≈ Rust < Go < TypeScript < JavaScript < Python。C#因其高度标准化而“最易预测”;Python则因其极致的灵活性和表达多样性,拥有最高的内在熵值,对模型而言也“最难学透”。

协同效应矩阵:揭示语言间的“近亲优势”与“非对称互助”
在实际的预训练中,单一语言模型很少见。那么,混合多种语言训练是否会产生“1+1>2”的协同效应?研究团队构建了一个详尽的协同增益矩阵,量化了引入一种辅助语言对提升目标语言模型性能的具体贡献。
实验发现,绝大多数语言都能从混合训练中获益,且收益大小与语法相似度紧密相关。例如,Java与C#、JavaScript与TypeScript这些“近亲”语言组合,在混合训练时产生了极强的正向迁移效果。
更有趣的是,这种迁移效应常常是非对称的。Java堪称“最大受益者”,几乎与任何其他语言混合都能显著降低其损失,这可能源于其成熟的面向对象范式能广泛吸收其他语言的通用逻辑。而Python虽然通常是强大的“能力供体”,能有效提升其他语言的性能,但其自身从其他语言获得的提升却相对有限,甚至在特定混合比例下可能出现轻微的负迁移。这一发现警示我们,构建训练语料库需要精密的策略设计,而非简单的“一锅烩”。

跨语言对齐新策略:并行配对激发零样本泛化能力
除了单语言代码生成,跨语言代码翻译(如Java转Python)也是代码大模型的关键能力。论文对比了两种数据组织策略:传统的“随机打乱”与创新的“并行配对”——即将功能相同的代码段及其跨语言翻译版本,拼接在同一个上下文窗口中输入模型。
实验证明,并行配对策略在所有模型规模上均显著优于基线。该策略实质上利用了模型的长上下文能力,构建了隐式的文档级语义对齐信号。更重要的是,它极大地激发了模型的零样本泛化能力。例如,模型仅使用Python-Java和Python-Go的配对数据训练,但在测试从未见过的Java-Go翻译任务时,表现出了卓越的组合泛化能力。这表明,通过构建以Python等语言为枢纽的平行语料,可以有效对齐不同编程语言在模型向量空间中的表示。

最优Token分配指南:一场基于边际效用的算力经济学
基于以上发现,论文提出了“依赖比例的多语言扩展定律”。这不仅是一个理论模型,更是一份可操作的算力投资指南。
在固定总算力预算下,传统的均匀分配远非最优。最优策略应遵循边际效用最大化的经济学原则:
- 重仓高潜力语言:大幅提升Python的Token占比,因其扩展指数高,持续投入能带来可观的性能增长。
- 平衡高协同组合:利用JavaScript和TypeScript之间的高度互补性,保持适当比例以最大化协同收益。
- 削减早熟语言投入:适度减少对Rust和Go的数据分配。因为它们收敛迅速,过度投入只会导致边际收益骤减,不如将这部分算力重新配置给更难“驯服”的语言。
实验验证表明,采用这种“引导式”分配策略训练的1.5B参数模型,在多语言代码生成与翻译任务上,其性能均稳定超越采用均匀分配的基线模型,且没有任何一种语言因数据占比调整而出现明显的性能退化。

核心启示:从数据清洗到宏观配比的时代转向
这项研究是代码大模型领域一次深刻的“祛魅”过程。它用海量实验数据确凿地证明:在模型训练的视角下,编程语言绝非可以等量齐观的同质化数据。
对于所有致力于训练顶尖代码大模型的团队而言,这项工作的启示是革命性的。数据工程的重点,必须从微观的“清洗与去重”,转向宏观的“战略成分配比”。深刻理解每种语言的扩展特性(是如Python般“潜力无限”,还是如Rust般“快速饱和”),并精准把握它们之间复杂的协同关系,将成为在有限算力预算下,锻造出综合能力更强大基座模型的关键。这不仅是算法层面的优化,更是一场关于资源配置效率的深刻变革。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/d803ae8e-7b82-4825-b124-bcc147718bee