Code Arena发布大模型编程新标准：国产GLM-4.6与GPT-5并列榜首

AI快讯 2025-11-14

Code Arena发布新一代大模型编程评估标准：国产GLM-4.6与GPT-5并驾齐驱

人工智能编程领域正经历着前所未有的快速发展浪潮。随着代码生成能力成为各大模型的核心竞争力，行业竞争态势日趋激烈，从模型参数优化到开发工具链完善，这场技术角逐堪比一场没有硝烟的科技军备竞赛。

近期，以Claude 4.5、GLM-4.6、kimi-k2为代表的新一代编程模型展现出令人瞩目的实力，它们不仅能够完成复杂项目的开发任务，还具备了构建真实应用程序的完整能力。

模型能力的竞争仅仅是开端，各大科技公司已全面布局智能编程产品矩阵，各类集成开发环境产品如雨后春笋般涌现。服务模式创新也层出不穷，甚至出现了“与AI协商定价”的全新商业模式，智能编程领域正迅速成为技术创新的热点战场。

面对模型能力的飞速进步，业界权威的大模型基准测试平台LMArena敏锐地捕捉到行业变革的关键：“当前的核心问题已不再是模型能否编写代码，而是它如何实现从概念到成品的完整应用构建流程。”

这个汇聚全球数百万开发者真实使用反馈的“盲测”平台，其权威排名已成为AI企业展示技术实力的重要标志。

今日，LMArena平台完成了年度最重要更新，正式推出新一代大模型编程评估体系：Code Arena，这标志着编程大模型评估标准迈入了全新阶段。

曾被业界誉为大模型编程“黄金标准”的WebDev Arena，首创了大规模人机协同的AI编程基准测试体系。开发者能够直观观察模型构建应用程序的全过程，与输出结果进行交互，并通过投票机制参与性能评估，极大提升了测试过程的参与度与透明度。

相较于传统的WebDev Arena评估体系，Code Arena进行了底层架构的全面重构。新系统不仅关注代码的运行结果，更深入评估其性能表现、交互流畅度以及对原始设计意图的准确实现程度。

最具突破性的是，这套创新系统能够精确测量“代码的动态生成过程”——完整捕捉模型在真实开发环境中的思考路径、规划策略与构建逻辑。这不再是传统的静态基准测试，而是在真实场景下由实际用户参与的动态评估。

Code Arena的正式发布，代表了大模型编程评估标准的重大演进，重新定义了行业技术标杆。

令人振奋的是，在这份全新榜单中，国产大模型智谱GLM-4.6强势登顶，成功超越Gemini和Grok等国际知名模型，与Claude、GPT-5共同位列榜首。

智谱GLM-4.6于9月30日正式发布，甫一亮相便凭借媲美Claude Sonnet 4的卓越编程能力，被誉为当时的“国内最强编程模型”。

发布一个半月后，GLM-4.6的编程实力依然稳居最新评估榜单首位，持续保持在全球顶尖水平，充分证明了其稳定而领先的技术实力。

该模型的卓越表现早已获得业界验证。10月初，编程智能体Cline产品经理Nick Baumann发布分析报告显示，基于对数百万次代码修改操作的数据追踪，zAI的GLM-4.6模型实现了94.9%的成功率，而Anthropic的Claude Sonnet 4.5成功率为96.2%。

这一数据具有里程碑意义。就在三个月前，开源模型与顶尖闭源模型在同类任务上的性能差距还维持在5-10个百分点。如今，这一差距已缩小至“基点”级别，表明双方在最复杂编程任务上的能力正快速接近。

Baumann还透露，Cline社区用户中已出现转向使用GLM-4.6处理日常开发工作的明显趋势。

值得关注的是，AI编程新锐Cognition近期推出的SWE-1.5模型，被业界推测是基于GLM 4.6进行定制优化（精细调优/强化学习），并部署在全球最大AI推理芯片公司Cerebras的硬件平台上。

^{有开发者对SWE 1.5进行技术探查，模型直接回应其基于智谱AI的GLM大模型架构。}

更具象征意义的是，Cerebras已决定将GLM-4.6设为首选推荐模型。在致全体用户的公告中，该公司明确表示：qwen-3-coder-480b将于2025年11月5日停止服务，同时推出GLM-4.6作为新一代基础模型。

GLM-4.6取得的系列成就，不仅确立了其作为开源领域“最强编程模型”的行业地位，更向全球展示了中国大模型的硬核技术实力。

正如Cline产品经理所观察到的，从数月前“5到10个百分点”的技术差距，到如今的“基点”级微差，这背后是中国技术力量从“奋力追赶”到“齐头并进”乃至“局部领先”的惊人跨越。

在曾经由Llama系列主导的开源生态中，以DeepSeek、Qwen、GLM、Kimi为代表的中国开源模型，正凭借出色的性能表现和极具竞争力的成本优势，成为全球AI开发者的优先选择。

这正是中国大模型力量崛起的生动写照。

^{参考资料：}

^{https://x.com/nickbaumann_/status/1973846157886697771}

^{https://x.com/arena/status/1988665199000498369}

^{https://news.lmarena.ai/code-arena/}

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/b3f132db-91c5-41c2-9797-ad3099a7b405

本站部分内容来源于网络，均已注明来源和出处（如有遗漏非主观故意）。本站尊重原创版权，转载内容版权归原作者所有，仅用于信息整理与交流。如原作者不同意转载，请联系我们进行删除或调整。

比肩OpenAI Simple Codex，中国团队闯入Terminal-Bench全球第二！

2026-02-11

OpenAI Codex智能体循环揭秘：提示词缓存与上下文管理驱动自动化开发

2026-01-25

AI工具重塑工作与教育：Claude Code如何缩短博士毕业时间

2026-01-06

豆包编程模型：256K长上下文+Agentic Coding，火山引擎高性价比AI编程助手

2025-11-12

Claude Code网页版发布：云端编程任务并行开发，安全沙盒提效

2025-10-21

Anthropic发布网页版Claude Code：云端编程与并行任务，安全沙盒助力开发效率

2025-10-21

Code Arena发布大模型编程新标准：国产GLM-4.6与GPT-5并列榜首

Code Arena发布新一代大模型编程评估标准：国产GLM-4.6与GPT-5并驾齐驱

腾讯2025Q3财报：AI生态价值释放，To B业务与云服务强劲增长

北京人形机器人开源Pelican-VL 1.0：DPPO训练突破多模态理解，性能逼近闭源系统

相关文章

最新文章

热门工具