Deep Principle发布全球首个LLMs科学评测体系SDE,揭示大模型科学发现短板

AI快讯 2026-01-17

深度原理发布全球首个大语言模型科学发现评测体系SDE,揭示AI科学创新短板

作者:论文团队 | 编辑:ScienceAI

近日,一项由中国AI初创企业深度原理(Deep Principle)牵头,联合麻省理工学院、哈佛大学、普林斯顿大学、斯坦福大学、剑桥大学、牛津大学等全球24所顶尖科研机构共同完成的研究,在国际学术界引发了巨大反响。该研究论文《Evaluating LLMs in Scientific Discovery》旨在评估大语言模型(LLMs)在科学发现领域的能力,并提出了首个专门针对此领域的评测体系——科学发现评估(Scientific Discovery Evaluation, SDE)。

论文一经发布,迅速成为国际AI社区的焦点。知名深度学习框架Keras的创始人François Chollet转发并评论道:“我们迫切需要新思路来推动人工智能走向科学创新。”AI领域意见领袖Alex Prompter分享了论文核心内容后,NBA达拉斯独行侠队老板马克·库班、硅谷投资人以及众多科技媒体纷纷跟进讨论,一夜之间累计阅读量逼近200万。

巧合的是,几乎在同一时间,OpenAI也发布了一份关于AI在科学研究任务中能力评估的论文概述《FrontierScience: Evaluating AI's Ability to Perform Scientific Research Tasks》,同样指出了现有评估标准在“AI for Science”领域的不足。这种不约而同的关注,凸显了全球对AI能否真正推动科学进步的深切思考。

AI距离真正的科学发现还有多远?

当前,人工智能领域正面临一个关键转折点。一方面,资本热情高涨,各类模型在GPQA、MMLU等传统知识问答基准测试中成绩斐然;另一方面,AI的应用似乎仍停留在“文生图”等表层,甚至无法准确解析简单的核磁共振图谱。这种“高分低能”的现象引发了一个核心问题:在题库上拿高分,是否等同于具备了助力科学发现的能力?

深度原理团队领衔发布的SDE评测体系,正是为了回答这个“时代之问”。与以往侧重于知识问答的评测不同,SDE将模型置于真实的科学研究流程中——从提出假设、设计实验到数据分析——对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等主流大模型在生物、化学、材料、物理四大基础科学领域的能力进行了全面摸底。

评测结果揭示了严峻的现实:这些顶尖模型在SDE上的平均准确率仅为50%至70%,远低于它们在传统题库上80%-90%的表现。在更具挑战性的86道“SDE-Hard”难题中,最高得分甚至不足12%。结果共同暴露出现有大模型在多步推理、不确定性量化以及理论与实验闭环验证等方面的明显短板。

更值得警惕的是,研究发现了模型性能提升的“边际效益递减”现象。以GPT-5为例,尽管其参数规模和算力大幅提升,但在SDE涵盖的四大科学领域中,平均准确率仅比前代模型提高了3%-5%,在某些特定场景(如核磁共振结构解析)中甚至出现了性能倒退。这清晰地表明,单纯扩大模型规模并非通往科学智能的康庄大道。有评论尖锐地指出,当前最先进的大语言模型在推动实际科学发现方面的能力,可能还不及一名优秀的本科毕业生。

背后的创新力量:深度原理与全球“梦之队”

这项具有里程碑意义的研究,其核心推动力来自于中国AI for Science领域的年轻团队——深度原理。公司联合创始人兼CTO段辰儒博士是本次论文的通讯作者。早在2021年于MIT攻读化学博士期间,他就在图灵奖得主Yoshua Bengio的支持下,发起建立了AI for Science社区。2024年初,他与MIT校友贾皓钧博士共同回国创立深度原理,致力于将生成式AI与量子化学相结合,革新材料研发等领域。

成立仅一年半,深度原理便获得了线性资本、高瓴创投、蚂蚁集团等知名机构的投资,并与晶泰科技、深势科技等行业领先企业建立了战略合作。团队持续在《Nature》子刊、JACS等顶级期刊上发表突破性成果,从证明扩散模型可用于生成化学反应的合成路径,到对比揭示传统机器学习势函数的局限性,始终精准切入AI for Science领域的核心挑战。

正是基于深厚的学术积淀与一线工业研发场景的实践经验,当深度原理提出要构建一把衡量AI科学发现能力的“新尺子”时,迅速得到了全球学界的响应。一支由23家顶级机构的50余位科学家组成的“梦之队”就此成立,其中包括MMMU基准发起人孙欢教授、AI4Science社区核心组织者杜沅岂博士、普林斯顿大学王梦迪教授以及IBM RXN之父Philippe Schwaller教授等众多领域内的领军人物。

经过近9个月的跨国界、跨学科协作,论文最终得以发布,通讯单位清晰地标注着:深度原理,中国杭州。这标志着,来自中国的创新力量,已经与OpenAI等全球顶尖机构并肩,站在了探索AI驱动科学发现这一宏伟征程的起跑线上。

迈向科学超级智能的新征程

这项研究的意义远不止于一份评测报告。它如同一盏探照灯,照亮了当前AI发展路径与终极目标——通用人工智能(AGI)——之间存在的鸿沟。研究表明,仅仅优化模型在问答任务上的表现,无法“顺便”攻克科学发现的难题。

正如段辰儒博士所言:“当大语言模型在各种科学问答榜单上表现饱和,却仍不能有效支持科学发现时,就像‘考试成绩好’不等于‘顶级研究者’。这说明我们需要全新的评测体系与训练路径。”SDE的推出,正是为了将AI研究的焦点,从各类榜单的内卷竞争,引向真正关乎人类知识边界的星辰大海。

通往科学超级智能的道路依然漫长,且无法由单一团队或技术路线独自完成。深度原理与全球合作者的这项工作,不仅揭示了短板,更发出了集结的号角。它呼唤更多有识之士共同思考、协作创新,为人工智能注入真正的科学洞察力与发现能力,共同迈向那个AI能够帮助人类拓宽认知边界的新纪元。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/90b97c12-f8a0-44e5-9b15-649527d6a271

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章