Poetiq与GPT-5.2推理编排系统ARC-AGI-2:无需微调提升AI性能
Poetiq推理编排系统:无需微调,让GPT-5.2在ARC-AGI-2上性能飙升15%

一个颠覆性的观点正在AI圈流传:决定人工智能能力上限的关键,可能不再是底层的核心模型本身,而是外层的推理编排系统。
这意味着,即使底层的大语言模型(LLM)保持不变,仅仅通过一套先进的智能体系统进行协调与调度,就能让AI的智力表现实现显著跃升。
这一结论,源于专注于AI推理与自我改进的初创公司Poetiq发布的最新评测结果。

评测结果部分展示
性能突破:GPT-5.2在复杂推理测试中创下新高
近日,Poetiq宣布,在其自主研发的Meta-system(元系统)上运行OpenAI的GPT-5.2 X-High模型,并使用ARC-AGI-2测试集进行评估。
ARC-AGI-2是业界公认用于衡量顶尖模型在复杂抽象推理任务上表现的权威基准。结果显示,在Poetiq的平台上,GPT-5.2 X-High在PUBLIC-EVAL数据集上取得了75%的准确率。
这一成绩比之前的最优结果(SOTA)高出约15个百分点,同时将每个问题的解决成本控制在8美元以下。
需要说明的是,PUBLIC-EVAL是ARC测试的组成部分,侧重于基础推理、NLP和数学推理,数据集公开且标准;而ARC-AGI-2则包含更具挑战性的问题,旨在测试模型的抽象推理、常识推理和创新能力极限。

下图清晰展示了各顶尖模型在PUBLIC-EVAL数据集上的性能分布,Poetiq系统加持下的GPT-5.2表现突出。

Poetiq特别强调,这一性能提升未对GPT-5.2模型进行任何再训练或针对性优化。相比其平台此前测试的其他模型,GPT-5.2在准确率和成本效益上实现了快速且显著的改进。
团队进一步展望,如果这一优势能在ARC Prize官方的SEMI-PRIVATE测试中延续,那么“GPT-5.2 X-High + Poetiq系统”的组合将成为前所未有的强大配置。
行业反响与关键问答
ARC Prize总裁Greg Kamradt对此表示赞赏:“很高兴看到Poetiq发布的GPT-5.2 X-High结果。如果成绩稳定,他们的系统在模型交换方面似乎处理得非常好。” 但他也指出,在OpenAI API的基础设施问题完全解决前,结果尚未得到最终验证。
这里的“模型交换”指系统能够灵活切换不同模型以适应任务需求,而无需对系统或模型进行大规模调整或重新训练。

OpenAI总裁Greg Brockman也转发了相关消息,确认GPT-5.2在ARC-AGI-2上超越了人类基准成绩。

针对新结果,社区提出了更多细节问题。例如,关于每个任务的平均耗时,Poetiq回复称,最简单的问题可在8-10分钟内解决,最复杂的问题则需要在12小时内终止以符合时限,未来仍有优化空间。

有观察者指出:“大部分改进似乎源于测试框架和协调机制,而非模型特定调优。在未改变训练的情况下,ARC-AGI-2上提升约15%,这表明仅在搜索、路由和终止逻辑方面就有巨大潜力。”
一个有趣的问题是:为何在该设置中,X-High版本每个任务的成本反而低于High版本?是因为它能更快找到正确答案而收敛,还是系统更积极地修剪了无效推理?Poetiq肯定了前者,即X-High能更快收敛到正确答案。

核心揭秘:六人团队打造的Meta-System
Poetiq是一支仅由6名研究员和工程师组成的精悍团队,其中多位核心成员拥有Google DeepMind的背景。
- Ian Fischer (联合创始人兼联席CEO): 前Google DeepMind资深研究员。
- Shumeet Baluja (联合创始人兼联席CEO): 同样出身于Google/DeepMind的资深专家。

取得突破的关键在于Poetiq构建的Meta-System。这是一个模型无关的“元系统”,可与任何前沿大模型(如Gemini 3、GPT-5.1、Grok等)协同工作,其核心不是训练或微调模型本身,而是通过智能编排释放模型潜力。这意味着它能随着新模型发布而快速适配,持续提升性能。
Poetiq的Meta-System采用了一种迭代式推理过程,与传统的一次性答案生成截然不同,主要基于两大机制:
- 迭代式问题求解循环:系统并非一次性提问,而是让LLM生成潜在解决方案,随后接收反馈、分析,并再次调用LLM改进方案。这种多步骤、自我改进的过程,逐步构建并完善最终答案。
- 自我审计:系统能自主监控运行进度,判断何时已获得足够信息、当前方案是否满意,从而决定终止过程。这种自我监控对于避免计算浪费、控制成本至关重要。
Poetiq特别指出,所有Meta-System的适配工作都在新模型发布前完成,且系统从未接触过ARC-AGI任务集。然而,它仍在多个不同模型上实现了跨版本、跨模型族的性能提升,这证明了该系统对推理策略具有出色的泛化能力。
正是这种灵活、强大且具备递归能力的架构,让Poetiq这支小团队得以在短时间内取得一系列尖端成果。
对于Meta-System,有评论称:“太棒了。在模型之上构建智能,而非内部,意味着能在几小时内适配新模型,非常高明。成功适配开源模型并迁移至新的闭源模型,表明他们捕捉到的是推理过程的基本规律,而非模型特有的‘怪癖’。”

本文信息参考自Poetiq官方发布。原文链接:https://poetiq.ai/posts/arcagi_verified/
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/acabe2b6-7818-4ec1-8fb6-0c919e23217c