Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

AI快讯 2026-01-17

深度原理发布全球首个大语言模型科学发现评测体系SDE，揭示AI科学创新短板

作者：论文团队 | 编辑：ScienceAI

近日，一项由中国AI初创企业深度原理（Deep Principle）牵头，联合麻省理工学院、哈佛大学、普林斯顿大学、斯坦福大学、剑桥大学、牛津大学等全球24所顶尖科研机构共同完成的研究，在国际学术界引发了巨大反响。该研究论文《Evaluating LLMs in Scientific Discovery》旨在评估大语言模型（LLMs）在科学发现领域的能力，并提出了首个专门针对此领域的评测体系——科学发现评估（Scientific Discovery Evaluation, SDE）。

论文一经发布，迅速成为国际AI社区的焦点。知名深度学习框架Keras的创始人François Chollet转发并评论道：“我们迫切需要新思路来推动人工智能走向科学创新。”AI领域意见领袖Alex Prompter分享了论文核心内容后，NBA达拉斯独行侠队老板马克·库班、硅谷投资人以及众多科技媒体纷纷跟进讨论，一夜之间累计阅读量逼近200万。

巧合的是，几乎在同一时间，OpenAI也发布了一份关于AI在科学研究任务中能力评估的论文概述《FrontierScience: Evaluating AI's Ability to Perform Scientific Research Tasks》，同样指出了现有评估标准在“AI for Science”领域的不足。这种不约而同的关注，凸显了全球对AI能否真正推动科学进步的深切思考。

AI距离真正的科学发现还有多远？

当前，人工智能领域正面临一个关键转折点。一方面，资本热情高涨，各类模型在GPQA、MMLU等传统知识问答基准测试中成绩斐然；另一方面，AI的应用似乎仍停留在“文生图”等表层，甚至无法准确解析简单的核磁共振图谱。这种“高分低能”的现象引发了一个核心问题：在题库上拿高分，是否等同于具备了助力科学发现的能力？

深度原理团队领衔发布的SDE评测体系，正是为了回答这个“时代之问”。与以往侧重于知识问答的评测不同，SDE将模型置于真实的科学研究流程中——从提出假设、设计实验到数据分析——对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等主流大模型在生物、化学、材料、物理四大基础科学领域的能力进行了全面摸底。

评测结果揭示了严峻的现实：这些顶尖模型在SDE上的平均准确率仅为50%至70%，远低于它们在传统题库上80%-90%的表现。在更具挑战性的86道“SDE-Hard”难题中，最高得分甚至不足12%。结果共同暴露出现有大模型在多步推理、不确定性量化以及理论与实验闭环验证等方面的明显短板。

更值得警惕的是，研究发现了模型性能提升的“边际效益递减”现象。以GPT-5为例，尽管其参数规模和算力大幅提升，但在SDE涵盖的四大科学领域中，平均准确率仅比前代模型提高了3%-5%，在某些特定场景（如核磁共振结构解析）中甚至出现了性能倒退。这清晰地表明，单纯扩大模型规模并非通往科学智能的康庄大道。有评论尖锐地指出，当前最先进的大语言模型在推动实际科学发现方面的能力，可能还不及一名优秀的本科毕业生。

背后的创新力量：深度原理与全球“梦之队”

这项具有里程碑意义的研究，其核心推动力来自于中国AI for Science领域的年轻团队——深度原理。公司联合创始人兼CTO段辰儒博士是本次论文的通讯作者。早在2021年于MIT攻读化学博士期间，他就在图灵奖得主Yoshua Bengio的支持下，发起建立了AI for Science社区。2024年初，他与MIT校友贾皓钧博士共同回国创立深度原理，致力于将生成式AI与量子化学相结合，革新材料研发等领域。

成立仅一年半，深度原理便获得了线性资本、高瓴创投、蚂蚁集团等知名机构的投资，并与晶泰科技、深势科技等行业领先企业建立了战略合作。团队持续在《Nature》子刊、JACS等顶级期刊上发表突破性成果，从证明扩散模型可用于生成化学反应的合成路径，到对比揭示传统机器学习势函数的局限性，始终精准切入AI for Science领域的核心挑战。

正是基于深厚的学术积淀与一线工业研发场景的实践经验，当深度原理提出要构建一把衡量AI科学发现能力的“新尺子”时，迅速得到了全球学界的响应。一支由23家顶级机构的50余位科学家组成的“梦之队”就此成立，其中包括MMMU基准发起人孙欢教授、AI4Science社区核心组织者杜沅岂博士、普林斯顿大学王梦迪教授以及IBM RXN之父Philippe Schwaller教授等众多领域内的领军人物。

经过近9个月的跨国界、跨学科协作，论文最终得以发布，通讯单位清晰地标注着：深度原理，中国杭州。这标志着，来自中国的创新力量，已经与OpenAI等全球顶尖机构并肩，站在了探索AI驱动科学发现这一宏伟征程的起跑线上。

迈向科学超级智能的新征程

这项研究的意义远不止于一份评测报告。它如同一盏探照灯，照亮了当前AI发展路径与终极目标——通用人工智能（AGI）——之间存在的鸿沟。研究表明，仅仅优化模型在问答任务上的表现，无法“顺便”攻克科学发现的难题。

正如段辰儒博士所言：“当大语言模型在各种科学问答榜单上表现饱和，却仍不能有效支持科学发现时，就像‘考试成绩好’不等于‘顶级研究者’。这说明我们需要全新的评测体系与训练路径。”SDE的推出，正是为了将AI研究的焦点，从各类榜单的内卷竞争，引向真正关乎人类知识边界的星辰大海。

通往科学超级智能的道路依然漫长，且无法由单一团队或技术路线独自完成。深度原理与全球合作者的这项工作，不仅揭示了短板，更发出了集结的号角。它呼唤更多有识之士共同思考、协作创新，为人工智能注入真正的科学洞察力与发现能力，共同迈向那个AI能够帮助人类拓宽认知边界的新纪元。

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/90b97c12-f8a0-44e5-9b15-649527d6a271

本站部分内容来源于网络，均已注明来源和出处（如有遗漏非主观故意）。本站尊重原创版权，转载内容版权归原作者所有，仅用于信息整理与交流。如原作者不同意转载，请联系我们进行删除或调整。

Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

深度原理发布全球首个大语言模型科学发现评测体系SDE，揭示AI科学创新短板

AI距离真正的科学发现还有多远？

背后的创新力量：深度原理与全球“梦之队”

迈向科学超级智能的新征程

上海复旦联合研发CLEAR-HUG框架，AI心电图分析性能提升6.84%

AI视频生成技术：实时换脸与角色替换如何颠覆影视制作与身份真实性

相关文章

最新文章

热门工具