基准测试

微观空间智能:AI驱动分子结构与药物研发的视觉语言模型基准挑战

来自中国顶尖高校与机构的研究团队联合发布了全球首个微观空间智能(MiSI)基准测试——MiSI-Bench。该基准包含16.3万个问答对和59万张分子图像,系统评估视觉语言模型(VLM)感知和推理原子、分子等微观实体空间关系的能力。研究揭示了当前顶级AI模型在微观空间推理上的潜力与局限:经过微调后,模型在复杂空间变换任务上可超越人类,但在依赖深度领域知识(如氢键识别)的任务上仍有差距。这项工作为AI在药物设计、材料科学等领域的应用奠定了重要评估基础,是迈向科学通用人工智能(Scientific AGI)的

小米开源跨域模型MiMo-Embodied:融合自动驾驶与具身智能,29项基准SOTA

小米发布首个开源跨领域基础模型MiMo-Embodied,成功融合自动驾驶与具身智能技术,在29项基准测试中创下新纪录。该模型采用创新的四阶段训练策略,实现了两大领域能力的正向迁移,为构建统一物理世界认知系统开辟了新路径。

Code Arena发布大模型编程新标准:国产GLM-4.6与GPT-5并列榜首

LMArena发布新一代大模型编程评估系统Code Arena,国产模型GLM-4.6与GPT-5、Claude并列榜首,标志着国产大模型在编程领域已达到全球顶尖水平。新评估体系重点关注模型在真实开发环境中的动态编程过程,而GLM-4.6的卓越表现也获得了Cerebras等国际厂商的认可,展现了中国AI技术的快速崛起。

AtomWorld材料建模基准测试发布,标准化大模型原子级空间推理评估

AtomWorld材料建模基准测试由中国科学技术大学苏州高等研究院与新南威尔士大学等机构联合发布,首次构建了针对大语言模型原子级空间推理能力的标准化评估体系。该测试通过10类核心原子操作任务,系统评估模型在三维原子结构编辑中的表现,填补了该领域评测空白,同时兼具数据生成功能,为大模型在材料科学中的优化和应用提供重要支撑。

多模态大模型空间想象力评估:SpatialViz-Bench基准测试与数据污染分析

中科院自动化所与伦敦大学学院联合团队推出首个基于认知科学的空间可视化评估基准SpatialViz-Bench,采用程序化生成技术有效防止数据污染。该研究对27个主流多模态大模型进行测试,发现即使最强模型Gemini-2.5-pro准确率仅44.66%,远低于人类82.46%的水平。研究揭示两大关键发现:思维链提示在开源模型中反而降低性能,模型主要错误源于基础感知和空间变换能力缺失而非高级推理。这些发现为多模态大模型的未来发展指明了重要方向。

谢赛宁团队利用大语言模型实现AI自动生成编程竞赛题目

谢赛宁团队开发的AutoCode系统利用大语言模型实现编程竞赛题目自动生成,通过验证器-生成器-检查器框架和双重验证协议,在测试用例生成方面达到最先进可靠性,误报率和漏报率较现有技术降低约50%。该系统能生成达到竞赛质量的新问题,超过80%生成问题具有训练价值,揭示了LLM作为知识重组者而非原创思想家的能力特点。