标签名称：LLM Agent训练

ICLR 2026｜把LLM Embedding Model算力瓶颈，从Query侧彻底移走，LightRetriever来了

AI快讯

2026-02-23

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

AI快讯

2026-02-09

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

本文探讨了生成式AI语音助手（如Alexa Plus）在智能家居应用中面临的可靠性挑战。文章通过记者与咖啡机的真实互动案例，揭示了LLM固有的随机性与家居控制所需的确定性之间的根本矛盾。尽管新技术在理解复杂指令、实现多设备协同和提供智能通知方面潜力巨大，但在执行开灯、煮咖啡等基础指令时却频频出错，引发用户不满。分析指出，问题核心在于技术边界模糊，当前将生成式AI置于核心控制位置可能为时过早。文章认为，未来的优化方向应是明确AI的辅助角色，将其作为增强理解的交互层，而非完全替代稳定可靠的传统控制逻辑，从而在

AI快讯

2026-01-19

Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

中国AI初创企业深度原理联合全球24所顶尖高校，发布了首个针对大语言模型科学发现能力的评测体系SDE。评估显示，GPT-5等主流模型在真实科研场景中表现远逊于传统问答测试，暴露出多步推理等短板，并出现性能提升的边际效益递减现象。这项与OpenAI同期关注相同议题的研究，标志着全球对AI驱动科学创新的严肃审视，旨在将AI发展引向超越题库竞争、真正助力人类拓展知识边界的星辰大海。

AI快讯

2026-01-17

2025推理模型之年：DeepSeek R1引领LLM强化推理新范式

本文基于AI研究员Sebastian Raschka的年度总结，深入解读了2025年大语言模型领域的核心进展。文章指出，2025年是“推理模型之年”，DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标，推动LLM发展重点从参数堆叠转向推理能力强化。同时，模型架构呈现MoE与高效注意力机制融合的趋势，“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色，并预测未来优势将在于私有数据与领域专业化。最后，对20

AI快讯

2026-01-03

AAAI 2026 | Trust-videoLLMs：视频大语言模型可信度与多模态安全评测

合肥工业大学与清华大学研究团队在AAAI 2026上提出了首个面向视频大语言模型的综合可信度评测基准Trust-videoLLMs。该基准从真实性、鲁棒性、安全性、公平性、隐私性五个维度，对23款主流模型进行了全面评估。关键发现包括：闭源模型整体领先但开源模型正在追赶；模型规模不等于性能；视频内容会放大安全风险；公平性偏见普遍存在；隐私保护能力存在双重性。团队开源了全套评测框架、数据集与工具箱，旨在推动构建更安全、可靠、负责任的多模态AI系统。

AI快讯

2025-12-16

斯坦福研究：协调层激活LLM推理能力，迈向AGI新路径

斯坦福大学Edward Y. Chang教授的最新研究提出，实现通用人工智能（AGI）的关键不在于无限扩大语言模型规模，而在于构建一个“协调层”。该协调层能够智能地引导和绑定大语言模型（LLM）内海量的模式知识，使其从基于统计的“模式匹配”转向目标明确的可靠“推理”。研究提出了“统一认知意识理论”（UCCT），将这一转变描述为一种“相变”，并设计了“多智能体协作智能”（MACI）架构作为协调层的工程实现。这项研究为AGI的发展提供了一条超越“规模扩展”与“模式匹配批判”的第三条道路。

AI快讯

2025-12-11

AAAI 2026前瞻：iSeal加密指纹技术，为大语言模型版权保护提供端到端安全方案

AAAI 2026收录的iSeal技术，是首个针对端到端模型窃取场景的加密指纹方案。它通过引入外部编码器、混淆扩散绑定机制及语义相似度验证，有效抵御了模型权重被盗后的合谋遗忘与响应篡改两大高级攻击，在12个主流LLM上实现了100%的验证成功率，且不影响模型原生性能，为大语言模型的版权保护提供了全新的端到端安全解决方案。

AI快讯

2025-12-02

HuggingFace发布200页大模型训练实战指南：从架构到部署全解析，SmolLM3案例详解

HuggingFace发布的200页大模型训练实战指南，基于384块H100 GPU训练SmolLM3的实践经验，系统性地分享了从训练决策、架构设计、数据管理到长周期训练、后处理优化和基础设施建设的完整技术路线，为大语言模型开发提供了端到端的实战解决方案。

AI快讯

2025-11-10

谷歌嵌套学习新范式突破LLM持续学习瓶颈，解决灾难性遗忘

谷歌推出的嵌套学习范式通过将模型视为多层次优化问题集合，以差异化更新频率解决LLM持续学习中的灾难性遗忘问题。基于该原理设计的Hope架构在语言建模和长上下文任务中表现优异，标志着人工智能向类脑进化迈出重要一步，为构建自我改进AI系统奠定基础。

AI快讯

2025-11-09

AI导航

LLM Agent训练