谢赛宁团队利用大语言模型实现AI自动生成编程竞赛题目

AI快讯 2025-10-20

谢赛宁团队推出AutoCode:大语言模型实现编程竞赛题目自动生成

人工智能先驱Rich Sutton曾指出:「AI只能在自我验证的范围内创造和维持知识。」爱因斯坦与英费尔德在《物理学的进化》中同样强调:「提出新问题往往比解决问题更具价值,后者可能仅涉及数学或实验技巧,而前者需要创造性想象力,标志着科学的真正进步。」

随着大型语言模型向通用人工智能目标迈进,评估其问题生成能力变得日益重要。特别是在高级编程任务应用中,未来LLM编程能力的提升和经济整合都需要大量验证工作支撑。

编程竞赛出题的独特挑战

出题需要比解题更深入的算法理解

基础编程问题往往可通过模板化技巧解决,标准编程题也常接受部分正确方案,这可能掩盖错误的推理过程。而竞赛编程题设有严格标准,旨在评估对算法设计原则、数据结构和复杂度权衡的深层理解。验证海量可能解法并覆盖各种边界情况极具挑战,但这对竞赛编程至关重要。

提升基准测试严谨性

由于Codeforces和AtCoder等顶级平台的官方测试数据不公开,研究人员目前依赖CodeContests+、TACO和HardTests等合成数据集。分析显示,现有测试集可能同时存在高误报率和高漏报率。例如,时间复杂度不佳的贪心算法可能通过小规模随机测试,但在对抗性构造案例中失败,这种缺陷导致评估环境扭曲,奖励了发现捷径的模型。

推动模型自我完善

成功提出新颖挑战可能为模型自我完善和AGI发展铺平道路,同时验证模型在复杂软件栈中的部署能力。

AutoCode:自动化竞赛编程问题生成框架

LiveCodeBench Pro团队开发的AutoCode系统,在大语言模型基础上构建了闭环多角色框架,实现了竞赛编程问题创建和评估全生命周期的自动化。

  • 论文标题:AutoCode: LLMs as Problem Setters for Competitive Programming
  • 论文地址:https://arxiv.org/abs/2510.12803v1
  • 项目页面:https://livecodebenchpro.com/projects/autocode/overview

该跨国研究团队包含来自十个机构的研究者,共有5位共同一作,包括知名研究者谢赛宁。

核心技术贡献

增强的验证器-生成器-检查器框架:在测试用例生成方面达到最先进可靠性

创新问题生成流程:从「种子问题」出发,引导LLM在有前景方向上创造新问题

测试用例生成机制

AutoCode的测试用例生成采用结构化框架,确保最大程度的严谨性和覆盖率:

验证器:系统基石,确保所有输入严格遵守问题描述约束,最小化漏报率

生成器:采用多样化策略创建广泛输入,减少误报率,无效案例被验证器过滤

检查器:将参赛者输出与参考解法比较

交互器:针对交互式任务,与参赛程序进行多轮对话给出最终判决

基准测试表现

团队建立了两个基准:主要基准包含7538个问题,来自现有数据集交集;第二个基准包含720个近期Codeforces比赛问题,完全未经过滤。

评估基于三个关键指标:一致性、误报率和漏报率。在7538个问题的基准上,AutoCode与官方判决一致性达91.1%,远超之前方法的81.0%。误报率降至3.7%,漏报率降至14.1%,两项指标较当前最优技术均减少约50%。

在更具挑战性的720个问题基准上,AutoCode保持98.7%的一致性,验证了其在现代复杂问题上的有效性。

问题生成创新

基于强大的测试生成能力,团队开发了问题生成框架,引入双重验证协议确保正确性。

方法灵感来自人类专家实践:从Codeforces选择难度评分低于2200的「种子问题」,LLM通过增删改条件生成新问题,同时提供高效参考解法和暴力解法。暴力解法虽然时间复杂度高但几乎不会出错,为高效解法提供可靠的事实标准。

双重验证协议成功过滤27%易错问题,将LLM参考解法正确率从86%提升至94%。超过80%生成问题具有足够质量可作为训练数据,23%涉及新颖或创造性设计。

关键发现

  • LLM能生成自己无法解决的可解问题
  • LLM倾向于组合现有框架,强调知识与实现,擅长「知识重组」而非原创创新
  • 新问题难度增幅大于种子问题,中等难度种子问题生成质量最高
  • 人类专家与LLM在问题质量判断上相关性低
  • 问题难度和难度增益是比LLM自我评估更可靠的质量指标

这些发现描绘了当前LLM在创造性任务上的清晰画像:LLM是强大的知识重组者,而非真正的原创思想家

总结与展望

AutoCode通过验证器-生成器-检查器框架与双重验证协议的结合,在测试用例生成方面实现最先进可靠性,并能生成达到竞赛质量的全新问题。大量实验证明其显著减少了误报和漏报,与官方判决一致性超过98%。

虽然模型擅长算法知识重组,但在引入新颖推理范式和完善样例设计方面仍有局限。团队研究表明,难度和难度增益可作为问题质量的可靠指标,为实现自我博弈提供了可扩展路径。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/042b0c0b-007f-4101-a861-2c9542aa13b6

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章