刘子鸣呼吁AI回归现象学:以KAN与玩具模型偿还认知债务
KAN作者刘子鸣在其最新博客中深刻反思当前人工智能研究现状,指出领域在追求Scaling Laws和工程性能的同时,跳过了关键的“理解”环节,积累了沉重的“认知债务”。他借用科学史类比,认为AI发展仍处于“第谷时代”,即大量实验观测缺乏理论归纳的早期阶段。为偿还这笔债务,刘子鸣呼吁建立一种“平易近人的现象学”研究范式,倡导回归使用“玩具模型”进行可控、多视角、好奇心驱动的探索,并宣布将通过分享博客笔记、在清华开设课程等方式身体力行。他强调,这种不以即时应用为导向、更包容开放的研究方式,对于推动AI从“炼丹
2025推理模型之年:DeepSeek R1引领LLM强化推理新范式
本文基于AI研究员Sebastian Raschka的年度总结,深入解读了2025年大语言模型领域的核心进展。文章指出,2025年是“推理模型之年”,DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标,推动LLM发展重点从参数堆叠转向推理能力强化。同时,模型架构呈现MoE与高效注意力机制融合的趋势,“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色,并预测未来优势将在于私有数据与领域专业化。最后,对20
OpenDataArena重构四大模块,多维评分与数据血缘重塑数据价值评估体系
上海人工智能实验室OpenDataLab团队开源了全面升级的OpenDataArena (ODA) 平台,旨在通过科学方法量化数据价值。该平台重构了四大核心模块:数据价值排行榜、数据血缘探索器、多维数据评分器和全开源评测工具箱,提供了从实战表现、血缘关系到细粒度质量的全方位评估能力。基于对海量数据的深度分析,团队揭示了包括“答案质量重于问题复杂度”、“代码数据具有特殊性”、“开源数据同质化严重”在内的六大关键发现。ODA致力于将数据选择从“玄学”变为可复现的科学,为AI研发提供精准的数据评估标尺。
DeepSeek提出流形约束超连接mHC架构,解决大规模模型训练稳定性难题
DeepSeek研究团队提出创新性“流形约束超连接”架构,通过将残差连接矩阵约束在双随机矩阵流形上,并辅以Sinkhorn-Knopp算法和定制化基础设施优化,成功解决了传统超连接在大规模模型训练中的数值不稳定和显存开销过大难题。实验表明,mHC在27B模型训练中仅增加6.7%的时间开销,即实现了显著的性能提升和卓越的训练稳定性,为大模型架构演进提供了新范式。
RoboTracer:多模态大模型赋能机器人3D空间轨迹生成与推理
北京航空航天大学、北京大学等机构联合推出的多模态大模型RoboTracer,通过创新的解耦坐标表达、通用空间编码器和两阶段训练策略,使机器人具备了在复杂三维环境中进行多步、带真实尺度约束的推理能力,并能生成精确的空间轨迹。该模型在多项评测中大幅领先现有先进模型,并能灵活集成于不同机器人平台,为实现家用服务机器人的高级空间任务规划提供了关键技术突破。
DAP模型发布:突破全景深度估计瓶颈,开启200万数据集驱动空间智能新纪元
由Insta360、UCSD、武汉大学等机构联合研发的Depth Any Panoramas模型,通过构建200万量级的全景数据引擎与创新的三阶段训练管线,成功突破了全景深度估计长期面临的数据与泛化瓶颈。该模型采用DINOv3骨干网络,在室内外多种开放世界场景的零样本测试中均取得领先性能,为机器人、自动驾驶、VR/AR等领域的空间感知提供了强大的基础视觉模型,标志着全景深度估计进入开放世界新时代。
北京智研院NPR框架:原生并行推理加速大模型复杂任务处理
北京通用人工智能研究院(BIGAI)提出原生并行推理器(NPR)框架,旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式,使模型获得内在的并行推理能力,能同时探索多条路径并汇总结果。实验表明,NPR在多个高难度数学推理基准上显著提升了准确率与效率(最高加速4.6倍),且并行行为稳健,为下一代AI智能体的发展提供了新思路。
AI编程时代:程序员技能重构与行业变革应对焦虑
本文探讨了在AI编程时代下,程序员群体面临的技能重构压力与行业变革焦虑。通过援引AI专家Andrej Karpathy、资深工程师Boris Cherny等人的观点,揭示了编程工作正从“编写代码”转向“串联与指挥AI工具”的根本性变化。文章同时呈现了乐观拥抱变革与保守批评(如Rob Pike)的不同声音,并引用数据说明AI能力正以超预期速度增长。最终引导读者思考在技术加速曲线中,如何定位自身并展望未来。
微观空间智能:AI驱动分子结构与药物研发的视觉语言模型基准挑战
来自中国顶尖高校与机构的研究团队联合发布了全球首个微观空间智能(MiSI)基准测试——MiSI-Bench。该基准包含16.3万个问答对和59万张分子图像,系统评估视觉语言模型(VLM)感知和推理原子、分子等微观实体空间关系的能力。研究揭示了当前顶级AI模型在微观空间推理上的潜力与局限:经过微调后,模型在复杂空间变换任务上可超越人类,但在依赖深度领域知识(如氢键识别)的任务上仍有差距。这项工作为AI在药物设计、材料科学等领域的应用奠定了重要评估基础,是迈向科学通用人工智能(Scientific AGI)的
Poetiq与GPT-5.2推理编排系统ARC-AGI-2:无需微调提升AI性能
AI初创公司Poetiq通过其创新的Meta-System(推理编排系统),在未对底层模型进行任何微调的情况下,显著提升了GPT-5.2 X-High在权威复杂推理基准ARC-AGI-2上的性能。测试显示,该系统使模型在PUBLIC-EVAL数据集上取得75%的准确率,较之前SOTA提升约15%,同时单题成本低于8美元。Poetiq系统采用迭代式问题求解和自我审计机制,具备模型无关性,可快速适配不同大模型,展现了在模型之上构建智能、通过优化推理过程而非改变模型本身来释放AI潜力的新范式。
腾讯加速AI布局:混元大模型开源,推动智能体与应用落地
2025年末,腾讯通过引进前OpenAI科学家姚顺雨、升级AI研发架构、开源混元世界模型等一系列组合拳,全面加速其人工智能战略布局。公司正着力打通从底层模型研发(如混元大模型)、工程化基础设施(如AI Infra部、TI平台),到中层工具链开源(如Youtu系列组件),再到上层行业应用落地(如金融、传媒、零售等场景)的全链路能力,构建“研究+工程”双轮驱动的AI生态体系,旨在推动智能体(Agent)技术普及并创造实际商业价值。
北航研究揭示代码大模型训练中编程语言差异,优化数据配比提升多语言协同效率
北京航空航天大学联合团队的最新研究《Scaling Laws for Code: Every Programming Language Matters》颠覆了代码大模型训练的传统认知。研究通过超千次实验发现,不同编程语言在训练动力学上存在本质差异:Python潜力巨大但难学透,Rust则快速收敛。研究首次构建了量化语言协同效应的矩阵,揭示了非对称的迁移规律,并提出了创新的“并行配对”数据策略以激发零样本泛化能力。最终,团队基于边际效用原则,给出了科学的最优Token分配方案,指导研究者在固定算力下实现性能
机器之心回顾2025全球AI顶会与展望2026学术社区趋势
本文回顾了机器之心在2025年围绕ICLR、CVPR、NeurIPS等全球顶级AI会议,在8座城市举办的11场社区活动,包括深度论文研讨和人才交流Meetup,成功构建了连接全球研究者的有温度平台。同时,文章展望了2026年,计划推出更丰富的活动系列,如“AI顶会Happy Hours”,并诚邀科技企业、高校及投资机构等合作伙伴加入,共同深化AI学术与产业生态的连接与合作。