推理加速

北京智研院NPR框架:原生并行推理加速大模型复杂任务处理

北京通用人工智能研究院(BIGAI)提出原生并行推理器(NPR)框架,旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式,使模型获得内在的并行推理能力,能同时探索多条路径并汇总结果。实验表明,NPR在多个高难度数学推理基准上显著提升了准确率与效率(最高加速4.6倍),且并行行为稳健,为下一代AI智能体的发展提供了新思路。

微软BitDistill技术实现1.58比特模型压缩,优化内存与推理速度

微软BitDistill技术通过创新的三阶段框架(模型优化、持续预训练、知识蒸馏),成功实现1.58比特极低比特量化,在文本分类和摘要任务中达到与全精度模型相当的性能,同时在CPU上实现10倍内存节省和2.65倍推理加速,为资源受限设备上的大语言模型部署提供了高效解决方案。