模型蒸馏
无数据Flow Map蒸馏:解决AI模型教师-数据不匹配先验分布问题
麻省理工与纽约大学联合团队提出FreeFlow无数据flow map蒸馏方法,通过仅从先验分布采样彻底解决教师-数据不匹配问题。该方法采用预测-校正框架,在ImageNet上实现1-NFE下FID 1.45的突破性性能,标志着AI从依赖外部数据转向挖掘内部潜能的重要范式转变。
微软BitDistill技术实现1.58比特模型压缩,优化内存与推理速度
微软BitDistill技术通过创新的三阶段框架(模型优化、持续预训练、知识蒸馏),成功实现1.58比特极低比特量化,在文本分类和摘要任务中达到与全精度模型相当的性能,同时在CPU上实现10倍内存节省和2.65倍推理加速,为资源受限设备上的大语言模型部署提供了高效解决方案。