标签名称：LLM Agent训练

Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

中国AI初创企业深度原理联合全球24所顶尖高校，发布了首个针对大语言模型科学发现能力的评测体系SDE。评估显示，GPT-5等主流模型在真实科研场景中表现远逊于传统问答测试，暴露出多步推理等短板，并出现性能提升的边际效益递减现象。这项与OpenAI同期关注相同议题的研究，标志着全球对AI驱动科学创新的严肃审视，旨在将AI发展引向超越题库竞争、真正助力人类拓展知识边界的星辰大海。

AI快讯

2026-01-17

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

本文探讨了生成式AI语音助手（如Alexa Plus）在智能家居应用中面临的可靠性挑战。文章通过记者与咖啡机的真实互动案例，揭示了LLM固有的随机性与家居控制所需的确定性之间的根本矛盾。尽管新技术在理解复杂指令、实现多设备协同和提供智能通知方面潜力巨大，但在执行开灯、煮咖啡等基础指令时却频频出错，引发用户不满。分析指出，问题核心在于技术边界模糊，当前将生成式AI置于核心控制位置可能为时过早。文章认为，未来的优化方向应是明确AI的辅助角色，将其作为增强理解的交互层，而非完全替代稳定可靠的传统控制逻辑，从而在

AI快讯

2026-01-19

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

AI快讯

2026-02-09

ICLR 2026｜把LLM Embedding Model算力瓶颈，从Query侧彻底移走，LightRetriever来了

AI快讯

2026-02-23

AI导航

LLM Agent训练

Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

ICLR 2026｜把LLM Embedding Model算力瓶颈，从Query侧彻底移走，LightRetriever来了