Code Arena发布大模型编程新标准:国产GLM-4.6与GPT-5并列榜首

AI快讯 2025-11-14

Code Arena发布新一代大模型编程评估标准:国产GLM-4.6与GPT-5并驾齐驱

人工智能编程领域正经历着前所未有的快速发展浪潮。随着代码生成能力成为各大模型的核心竞争力,行业竞争态势日趋激烈,从模型参数优化到开发工具链完善,这场技术角逐堪比一场没有硝烟的科技军备竞赛。

近期,以Claude 4.5、GLM-4.6、kimi-k2为代表的新一代编程模型展现出令人瞩目的实力,它们不仅能够完成复杂项目的开发任务,还具备了构建真实应用程序的完整能力。

模型能力的竞争仅仅是开端,各大科技公司已全面布局智能编程产品矩阵,各类集成开发环境产品如雨后春笋般涌现。服务模式创新也层出不穷,甚至出现了“与AI协商定价”的全新商业模式,智能编程领域正迅速成为技术创新的热点战场。

面对模型能力的飞速进步,业界权威的大模型基准测试平台LMArena敏锐地捕捉到行业变革的关键:“当前的核心问题已不再是模型能否编写代码,而是它如何实现从概念到成品的完整应用构建流程。”

这个汇聚全球数百万开发者真实使用反馈的“盲测”平台,其权威排名已成为AI企业展示技术实力的重要标志。

今日,LMArena平台完成了年度最重要更新,正式推出新一代大模型编程评估体系:Code Arena,这标志着编程大模型评估标准迈入了全新阶段。

Code Arena评估系统界面

曾被业界誉为大模型编程“黄金标准”的WebDev Arena,首创了大规模人机协同的AI编程基准测试体系。开发者能够直观观察模型构建应用程序的全过程,与输出结果进行交互,并通过投票机制参与性能评估,极大提升了测试过程的参与度与透明度。

相较于传统的WebDev Arena评估体系,Code Arena进行了底层架构的全面重构。新系统不仅关注代码的运行结果,更深入评估其性能表现、交互流畅度以及对原始设计意图的准确实现程度。

最具突破性的是,这套创新系统能够精确测量“代码的动态生成过程”——完整捕捉模型在真实开发环境中的思考路径、规划策略与构建逻辑。这不再是传统的静态基准测试,而是在真实场景下由实际用户参与的动态评估

Code Arena的正式发布,代表了大模型编程评估标准的重大演进,重新定义了行业技术标杆。

令人振奋的是,在这份全新榜单中,国产大模型智谱GLM-4.6强势登顶,成功超越Gemini和Grok等国际知名模型,与Claude、GPT-5共同位列榜首

Code Arena排行榜显示GLM-4.6位列第一

智谱GLM-4.6于9月30日正式发布,甫一亮相便凭借媲美Claude Sonnet 4的卓越编程能力,被誉为当时的“国内最强编程模型”。

GLM-4.6技术参数展示

发布一个半月后,GLM-4.6的编程实力依然稳居最新评估榜单首位,持续保持在全球顶尖水平,充分证明了其稳定而领先的技术实力。

该模型的卓越表现早已获得业界验证。10月初,编程智能体Cline产品经理Nick Baumann发布分析报告显示,基于对数百万次代码修改操作的数据追踪,zAI的GLM-4.6模型实现了94.9%的成功率,而Anthropic的Claude Sonnet 4.5成功率为96.2%。

Cline平台性能对比数据

这一数据具有里程碑意义。就在三个月前,开源模型与顶尖闭源模型在同类任务上的性能差距还维持在5-10个百分点。如今,这一差距已缩小至“基点”级别,表明双方在最复杂编程任务上的能力正快速接近。

Baumann还透露,Cline社区用户中已出现转向使用GLM-4.6处理日常开发工作的明显趋势。

值得关注的是,AI编程新锐Cognition近期推出的SWE-1.5模型,被业界推测是基于GLM 4.6进行定制优化(精细调优/强化学习),并部署在全球最大AI推理芯片公司Cerebras的硬件平台上。

SWE-1.5模型技术分析

有开发者对SWE 1.5进行技术探查,模型直接回应其基于智谱AI的GLM大模型架构。

更具象征意义的是,Cerebras已决定将GLM-4.6设为首选推荐模型。在致全体用户的公告中,该公司明确表示:qwen-3-coder-480b将于2025年11月5日停止服务,同时推出GLM-4.6作为新一代基础模型。

Cerebras官方公告截图

GLM-4.6取得的系列成就,不仅确立了其作为开源领域“最强编程模型”的行业地位,更向全球展示了中国大模型的硬核技术实力。

正如Cline产品经理所观察到的,从数月前“5到10个百分点”的技术差距,到如今的“基点”级微差,这背后是中国技术力量从“奋力追赶”到“齐头并进”乃至“局部领先”的惊人跨越。

在曾经由Llama系列主导的开源生态中,以DeepSeek、Qwen、GLM、Kimi为代表的中国开源模型,正凭借出色的性能表现和极具竞争力的成本优势,成为全球AI开发者的优先选择。

这正是中国大模型力量崛起的生动写照。

参考资料:

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/b3f132db-91c5-41c2-9797-ad3099a7b405

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章