AI快讯
刘子鸣呼吁AI回归现象学:以KAN与玩具模型偿还认知债务
KAN作者刘子鸣在其最新博客中深刻反思当前人工智能研究现状,指出领域在追求Scaling Laws和工程性能的同时,跳过了关键的“理解”环节,积累了沉重的“认知债务”。他借用科学史类比,认为AI发展仍处于“第谷时代”,即大量实验观测缺乏理论归纳的早期阶段。为偿还这笔债务,刘子鸣呼吁建立一种“平易近人的现象学”研究范式,倡导回归使用“玩具模型”进行可控、多视角、好奇心驱动的探索,并宣布将通过分享博客笔记、在清华开设课程等方式身体力行。他强调,这种不以即时应用为导向、更包容开放的研究方式,对于推动AI从“炼丹
2025推理模型之年:DeepSeek R1引领LLM强化推理新范式
本文基于AI研究员Sebastian Raschka的年度总结,深入解读了2025年大语言模型领域的核心进展。文章指出,2025年是“推理模型之年”,DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标,推动LLM发展重点从参数堆叠转向推理能力强化。同时,模型架构呈现MoE与高效注意力机制融合的趋势,“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色,并预测未来优势将在于私有数据与领域专业化。最后,对20
OpenDataArena重构四大模块,多维评分与数据血缘重塑数据价值评估体系
上海人工智能实验室OpenDataLab团队开源了全面升级的OpenDataArena (ODA) 平台,旨在通过科学方法量化数据价值。该平台重构了四大核心模块:数据价值排行榜、数据血缘探索器、多维数据评分器和全开源评测工具箱,提供了从实战表现、血缘关系到细粒度质量的全方位评估能力。基于对海量数据的深度分析,团队揭示了包括“答案质量重于问题复杂度”、“代码数据具有特殊性”、“开源数据同质化严重”在内的六大关键发现。ODA致力于将数据选择从“玄学”变为可复现的科学,为AI研发提供精准的数据评估标尺。
DeepSeek提出流形约束超连接mHC架构,解决大规模模型训练稳定性难题
DeepSeek研究团队提出创新性“流形约束超连接”架构,通过将残差连接矩阵约束在双随机矩阵流形上,并辅以Sinkhorn-Knopp算法和定制化基础设施优化,成功解决了传统超连接在大规模模型训练中的数值不稳定和显存开销过大难题。实验表明,mHC在27B模型训练中仅增加6.7%的时间开销,即实现了显著的性能提升和卓越的训练稳定性,为大模型架构演进提供了新范式。
RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理
北京航空航天大学、北京大学等机构联合推出的多模态大模型RoboTracer,通过创新的解耦坐标表达、通用空间编码器和两阶段训练策略,使机器人具备了在复杂三维环境中进行多步、带真实尺度约束的推理能力,并能生成精确的空间轨迹。该模型在多项评测中大幅领先现有先进模型,并能灵活集成于不同机器人平台,为实现家用服务机器人的高级空间任务规划提供了关键技术突破。
DAP模型发布:突破全景深度估计瓶颈,开启200万数据集驱动空间智能新纪元
由Insta360、UCSD、武汉大学等机构联合研发的Depth Any Panoramas模型,通过构建200万量级的全景数据引擎与创新的三阶段训练管线,成功突破了全景深度估计长期面临的数据与泛化瓶颈。该模型采用DINOv3骨干网络,在室内外多种开放世界场景的零样本测试中均取得领先性能,为机器人、自动驾驶、VR/AR等领域的空间感知提供了强大的基础视觉模型,标志着全景深度估计进入开放世界新时代。