何恺明团队提出pMF框架:单步无潜空间图像生成,简化流程提升效率

AI快讯 2026-02-04

何恺明团队提出pMF框架:单步无潜空间图像生成,简化流程提升效率

何恺明团队的最新研究论文,再次展现了其“大道至简”的设计哲学。该研究直面当前以DiT为代表的主流扩散模型与流匹配模型的核心痛点,提出了一种创新的图像生成框架——pixel MeanFlow(pMF),实现了单步、无需潜空间(Latent-free)的端到端图像生成。

pMF框架示意图
图1:pMF框架核心设计示意图

在追求更高效、更直接生成范式的道路上,当前主流方法主要依赖两大支柱:一是通过多步采样分解复杂的分布转换,二是在预训练VAE的潜空间中运行以降低计算维度。尽管这些设计带来了卓越的图像质量,但也引入了额外的系统复杂性和推理开销,与深度学习“端到端”的精神有所背离。

何恺明团队提出的pMF框架,旨在解决这一矛盾。该框架继承了改进均值流(iMF)的思想,在瞬时速度(v)空间内定义损失函数,以学习平均速度场(u)。同时,受Just image Transformers(JiT)的启发,pMF直接对类似于去噪图像的物理量(x-prediction值)进行参数化,并假设该物理量位于低维流形上,更易于学习。

团队的核心创新在于引入了一种巧妙的转换机制,将v、u和x三个物理场有机地联系起来。这一设计不仅更符合流形假设,还产生了一个更易于神经网络优化的学习目标。

pMF学习目标可视化
图2:pMF框架中不同物理场的可视化对比,x场更接近清晰的去噪图像

简而言之,pMF训练了一个神经网络,能够将噪声输入直接映射为最终的图像像素。这种“所见即所得”的特性,是多步采样或基于潜空间的方法所不具备的。这一特性还带来了一个关键优势:感知损失(如LPIPS)能够被自然地集成到训练过程中,从而有效提升生成图像的视觉质量。

突破性实验结果

实验数据有力地证明了pMF框架的竞争力。在ImageNet数据集上,pMF在256x256分辨率下取得了2.22的FID分数,在512x512分辨率下达到了2.48的FID分数。研究团队特别强调,选择合适的预测目标是成功的关键——在像素空间中直接预测速度场(u-prediction)会导致模型性能崩溃,而预测去噪图像(x-prediction)则表现优异,这验证了x位于更低维流形上的假设。

这项研究传递出一个明确信号:单步、无潜空间的图像生成不仅是可行的,而且已经具备了强大的竞争力。这标志着人工智能在构建单一、纯粹的端到端生成模型道路上,迈出了坚实的一步。

技术方法深度解析

pMF框架的优雅之处在于其统一的设计。团队希望网络能像JiT一样直接输出清晰的去噪图像x,同时整个单步建模过程像MeanFlow一样在u和v的速度场空间中进行。为此,他们在平均速度场u与广义的去噪图像场x之间建立了数学联系。

具体而言,网络参数化为直接输出x_θ,然后通过推导出的公式将其转换为对应的速度场u_θ,最终结合改进均值流(iMF)的v-loss进行优化。整个算法逻辑清晰,并且可以扩展以支持无分类器引导(CFG)等高级功能。

感知损失的自然融合

由于网络输出x_θ本身就是像素空间下的去噪图像,这为引入感知损失打开了方便之门。团队可以直接对输出应用LPIPS等损失函数,让模型在优化过程中不仅关注像素级的差异,更关注图像在感知层面的质量。这一特性此前在基于像素的方法中难以实现,而pMF凭借其“所见即所得”的设计,使其成为可能。

详实的实验验证

研究团队通过一系列严谨的实验验证了pMF的有效性:

  1. 玩具实验:在一个2D数据实验中证明,当数据位于低维流形时,预测x远比预测u更加容易且有效。
  2. 预测目标消融:在ImageNet 256x256数据集上,x-prediction取得了成功,而u-prediction则完全失败,这在高维观测空间中尤为明显。
  3. 高分辨率生成:pMF能够有效处理直至1024x1024的高分辨率生成任务,即使采用激进的Patch大小,模型性能依然稳定。
  4. 模型可扩展性:增加模型参数量和训练时长都能持续提升pMF的性能,显示了其良好的扩展潜力。

最终,在单步、无潜空间生成模型这一新兴类别中,pMF取得了领先的性能,大幅超越了此前的方法(如EPG),为未来高效、简洁的生成式AI模型设计指明了新的方向。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/7fa6f844-569c-4ccb-aff6-735e21f084ec

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章