LLM Agent训练

Deep Principle发布全球首个LLMs科学评测体系SDE,揭示大模型科学发现短板

中国AI初创企业深度原理联合全球24所顶尖高校,发布了首个针对大语言模型科学发现能力的评测体系SDE。评估显示,GPT-5等主流模型在真实科研场景中表现远逊于传统问答测试,暴露出多步推理等短板,并出现性能提升的边际效益递减现象。这项与OpenAI同期关注相同议题的研究,标志着全球对AI驱动科学创新的严肃审视,旨在将AI发展引向超越题库竞争、真正助力人类拓展知识边界的星辰大海。

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

本文探讨了生成式AI语音助手(如Alexa Plus)在智能家居应用中面临的可靠性挑战。文章通过记者与咖啡机的真实互动案例,揭示了LLM固有的随机性与家居控制所需的确定性之间的根本矛盾。尽管新技术在理解复杂指令、实现多设备协同和提供智能通知方面潜力巨大,但在执行开灯、煮咖啡等基础指令时却频频出错,引发用户不满。分析指出,问题核心在于技术边界模糊,当前将生成式AI置于核心控制位置可能为时过早。文章认为,未来的优化方向应是明确AI的辅助角色,将其作为增强理解的交互层,而非完全替代稳定可靠的传统控制逻辑,从而在