何恺明团队提出pMF框架：单步无潜空间图像生成，简化流程提升效率

AI快讯 2026-02-04

何恺明团队提出pMF框架：单步无潜空间图像生成，简化流程提升效率

何恺明团队的最新研究论文，再次展现了其“大道至简”的设计哲学。该研究直面当前以DiT为代表的主流扩散模型与流匹配模型的核心痛点，提出了一种创新的图像生成框架——pixel MeanFlow（pMF），实现了单步、无需潜空间（Latent-free）的端到端图像生成。

论文标题：One-step Latent-free Image Generation with Pixel Mean Flows
arXiv地址：https://arxiv.org/pdf/2601.22158v1

在追求更高效、更直接生成范式的道路上，当前主流方法主要依赖两大支柱：一是通过多步采样分解复杂的分布转换，二是在预训练VAE的潜空间中运行以降低计算维度。尽管这些设计带来了卓越的图像质量，但也引入了额外的系统复杂性和推理开销，与深度学习“端到端”的精神有所背离。

何恺明团队提出的pMF框架，旨在解决这一矛盾。该框架继承了改进均值流（iMF）的思想，在瞬时速度（v）空间内定义损失函数，以学习平均速度场（u）。同时，受Just image Transformers（JiT）的启发，pMF直接对类似于去噪图像的物理量（x-prediction值）进行参数化，并假设该物理量位于低维流形上，更易于学习。

团队的核心创新在于引入了一种巧妙的转换机制，将v、u和x三个物理场有机地联系起来。这一设计不仅更符合流形假设，还产生了一个更易于神经网络优化的学习目标。

pMF学习目标可视化 — 图2：pMF框架中不同物理场的可视化对比，x场更接近清晰的去噪图像

简而言之，pMF训练了一个神经网络，能够将噪声输入直接映射为最终的图像像素。这种“所见即所得”的特性，是多步采样或基于潜空间的方法所不具备的。这一特性还带来了一个关键优势：感知损失（如LPIPS）能够被自然地集成到训练过程中，从而有效提升生成图像的视觉质量。

突破性实验结果

实验数据有力地证明了pMF框架的竞争力。在ImageNet数据集上，pMF在256x256分辨率下取得了2.22的FID分数，在512x512分辨率下达到了2.48的FID分数。研究团队特别强调，选择合适的预测目标是成功的关键——在像素空间中直接预测速度场（u-prediction）会导致模型性能崩溃，而预测去噪图像（x-prediction）则表现优异，这验证了x位于更低维流形上的假设。

这项研究传递出一个明确信号：单步、无潜空间的图像生成不仅是可行的，而且已经具备了强大的竞争力。这标志着人工智能在构建单一、纯粹的端到端生成模型道路上，迈出了坚实的一步。

技术方法深度解析

pMF框架的优雅之处在于其统一的设计。团队希望网络能像JiT一样直接输出清晰的去噪图像x，同时整个单步建模过程像MeanFlow一样在u和v的速度场空间中进行。为此，他们在平均速度场u与广义的去噪图像场x之间建立了数学联系。

具体而言，网络参数化为直接输出x_θ，然后通过推导出的公式将其转换为对应的速度场u_θ，最终结合改进均值流（iMF）的v-loss进行优化。整个算法逻辑清晰，并且可以扩展以支持无分类器引导（CFG）等高级功能。

感知损失的自然融合

由于网络输出x_θ本身就是像素空间下的去噪图像，这为引入感知损失打开了方便之门。团队可以直接对输出应用LPIPS等损失函数，让模型在优化过程中不仅关注像素级的差异，更关注图像在感知层面的质量。这一特性此前在基于像素的方法中难以实现，而pMF凭借其“所见即所得”的设计，使其成为可能。

详实的实验验证

研究团队通过一系列严谨的实验验证了pMF的有效性：

玩具实验：在一个2D数据实验中证明，当数据位于低维流形时，预测x远比预测u更加容易且有效。
预测目标消融：在ImageNet 256x256数据集上，x-prediction取得了成功，而u-prediction则完全失败，这在高维观测空间中尤为明显。
高分辨率生成：pMF能够有效处理直至1024x1024的高分辨率生成任务，即使采用激进的Patch大小，模型性能依然稳定。
模型可扩展性：增加模型参数量和训练时长都能持续提升pMF的性能，显示了其良好的扩展潜力。

最终，在单步、无潜空间生成模型这一新兴类别中，pMF取得了领先的性能，大幅超越了此前的方法（如EPG），为未来高效、简洁的生成式AI模型设计指明了新的方向。

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/7fa6f844-569c-4ccb-aff6-735e21f084ec