HumanLift技术:单图实现高保真3D数字人重建与多视角生成

AI快讯 2025-10-22

HumanLift技术突破:单张图片实现高保真3D数字人建模

HumanLift技术示意图

在当今数字时代,构建逼真的三维虚拟人物已成为影视特效、游戏开发和虚拟现实等领域的核心技术需求。这种技术能够为用户创造出身临其境的沉浸式体验,推动着数字娱乐产业的创新发展。

虽然现有的多视角图像重建技术已经能够生成较为精细的三维人体模型,但从单一照片创建高真实感数字人仍然面临着巨大的技术挑战。这不仅涉及复杂的算法设计,还需要大量的计算资源支持。

当前技术面临的主要难题包括:如何在保持三维空间一致性的同时准确还原原始图像特征,如何生成具有高度真实感的人物姿态和外观,以及如何确保服装纹理和面部细节的精细呈现。

近期,来自中国科学院计算技术研究所、香港科技大学和卡迪夫大学的科研团队联合研发了一项创新技术——HumanLift。这项技术能够基于单张参考图像重建高斯网格数字人全身模型,相关研究成果已获得SIGGRAPH ASIA 2025学术会议的收录。

HumanLift项目信息
  • 项目官网:http://geometrylearning.com/HumanLift/

HumanLift技术融合了三维视频扩散模型和面部增强算法,创造性地解决了单图重建的难题。使用者只需提供一张人物照片,系统就能生成高质量的三维数字人模型。该技术不仅能够准确预测不同视角下的人物外观和服装几何细节,还能确保多角度观察时的一致性,同时完美保留原始图像的人物特征信息。

以下是基于单张参考图像重建数字人的效果展示:

三维高斯网格数字人重建结果

图1 基于单张图像的三维高斯网格数字人重建效果

技术发展背景

早期的单图数字人重建技术主要采用显式和隐式两种方法。显式方法依赖参数化模型来估计人体基本形状,但由于模板结构固定,难以处理复杂服装情况。隐式方法通过隐函数描述复杂几何形体,重建质量有所提升,但计算成本较高,且因缺乏有效先验知识,生成纹理的真实感仍有待提高。

近年来,随着生成模型和神经隐式渲染技术的快速发展,二维图像与三维空间之间的转换变得更加高效。Stable Diffusion、神经辐射场和三维高斯泼溅等技术的出现,为三维内容生成提供了新的可能性。

虽然在普通物体的单视图重建方面取得了显著进展,但由于三维人体数据稀缺以及人体姿态和服装的复杂性,将这些技术应用于高真实感三维人体建模仍然面临诸多困难。

部分研究方法尝试从参考图像中提取文本信息,结合扩散模型和可微渲染技术进行建模,但受限于文本描述的模糊性,难以精确还原服装细节,且优化效率较低。随着多视图扩散生成技术的发展,研究者开始探索直接从单张图像生成多视图人体图像的方法,以简化复杂的优化流程。

例如,将多视图生成与3D高斯泼溅技术结合为统一的优化模块,但由于缺乏三维先验知识,容易产生视角不一致的问题。其他方法引入了显式三维人体先验,结合生成模型提升多视图一致性,虽然在服装和姿态的真实性上有所改进,但由于面部在全身图像中占比较小,仍然存在面部细节缺失和真实感不足的问题。

算法核心原理

HumanLift的技术目标是从单张人物图像创建能够捕捉逼真外观和细微细节的3D数字形象,包括清晰的服装纹理和面部特征,实现自由视角的观察体验。该技术通过两个关键阶段实现这一目标,其系统架构如下图所示:

HumanLift方法框架

图2 HumanLift系统架构图

第一阶段:多视角图像生成

此阶段目标是从日常拍摄的人物照片生成逼真的多角度视图。HumanLift设计了一种具备三维感知能力的多视角人体生成方法。

为确保对普通图像的适应能力,生成器核心基于当前先进的视频生成模型Wan2.1构建,该模型在大量二维通用视频数据上训练完成,具备强大的高保真视频推理能力。

HumanLift在此基础之上引入了额外的三维人体先验知识,专门处理二维人体动画任务,并继承了预训练模型的权重参数。

具体而言,该阶段设计了两种专门优化的人体模型——HumanWan-DiT(RGB)和HumanWan-DiT(Normal),以增强不同视角下的一致性和几何细节表现。

同时,系统引入SMPL-X的多视角语义图像作为三维先验条件,并将其嵌入到Wan2.1模型中,提供三维空间引导。为在减少训练内存消耗的同时保持模型生成能力,方法采用了低秩适应技术进行内存高效的参数微调。

此外,通过由堆叠三维卷积层组成的轻量级条件编码器,对人体三维先验信息进行编码处理,其网络结构如下所示:

HumanWan-DiT网络架构

图3 HumanWan-DiT网络结构设计

其中包含两个核心组件:

  • HumanWan-DiT(RGB):以SMPL-X语义图像为条件输入,人体全身RGB图像为参考输入,最终输出多视角的RGB图像;
  • HumanWan-DiT(Normal):以HumanWan-DiT(RGB)生成的多视角图像为条件输入,预测的法向图像为参考输入,最终输出多视角的法向图像。

第二阶段:3D-GS模型重建

此阶段利用第一阶段生成的多视角图像,包括法向图和RGB图像,重建人体的3D-GS表示。

首先,该方法借助现有生成模型对超分辨率面部图像进行多视角生成,创建具有标准空间相机姿态的高质量多视角面部图像。

在重建过程中,以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网格表示对三维高斯球参数进行优化。

特别需要注意的是,为确保面部渲染的精确性,需要将面部图像的相机姿态从标准空间转换到SMPL-X头部世界空间,以监督面部区域的高斯球属性,获得高质量的面部细节。

由于初始SMPL-X与人体3D-GS模型之间存在位置误差,HumanLift会根据每次迭代优化后的SMPL-X姿态参数,动态调整面部相机姿态,确保面部相机与头部三维高斯球始终保持空间一致性。

技术效果展示

真实场景人体图像重建

为展示HumanLift在真实拍摄人物图像中的表现效果,对于每张输入图像,系统能够预测多视角的RGB图像和法向图像。

实验结果表明,HumanLift生成的多视角RGB图像具有照片级真实感,多视角法向图能够精确反映人物及服装的几何细节,整体保持了优秀的空间一致性。

为进一步验证HumanLift的泛化能力,图4展示了更多人物的重建结果,涵盖不同服装风格和拍摄环境的各种案例。无论参考图像的人物特征和服装类型如何变化,HumanLift都能稳定生成高质量、高一致性的三维数字人。更多详细结果请访问项目官网。

不同服装条件下的颜色和法向结果

图4 多样化服装和场景下的颜色与法向重建效果

模块消融实验分析

为验证各技术模块的实际贡献,图5展示了HumanLift的消融实验结果,对比分析了三种简化方案的效果:禁用面部增强、禁用SMPL-X姿态优化和禁用人体多视角法线图监督。

  • 禁用面部增强:面部细节显著缺失,真实感受损严重;
  • 禁用SMPL-X姿态优化:人体姿态与头部相机位姿匹配度下降,头部渲染效果偏离真实场景;
  • 禁用人体多视角法线图监督:服装细节大量丢失,几何结构呈现不准确。

实验数据充分证明,面部增强模块通过生成先验知识显著提升了面部细节质量;SMPL-X优化模块不仅能有效调整人体姿态参数,还能同步更新头部相机位姿,引导3D-GS模型生成更符合真实感的头部渲染效果;基于微调HumanWan-DiT(Normal)模型提供的法线监督,使得3D-GS表征在多视角一致法线图像的指导下,能够更好地保留服装细节特征。

消融实验结果对比

图5 不同技术策略下的消融分析结果

技术总结与展望

随着大型模型和生成式人工智能技术的迅猛发展,单图全身数字人重建领域迎来了全新的技术范式。传统重建方法存在真实感不足、复杂服装和姿态重建困难等问题;而现有的生成式方法,也难以在人物姿态、服装细节和面部真实感与一致性重建之间达到理想平衡。

HumanLift提供了一种创新性的解决方案,通过微调基于三维扩散先验的视频生成模型和专门设计的面部增强模块。借助这一技术,用户无需进行复杂的数据处理,仅需输入单张参考图像,就能重建出高质量、高逼真度的三维数字人——不仅能够在新视角下准确预测人物外观和服装几何特征,还能保持多角度观察的一致性,同时确保生成的三维模型完美契合输入图像的人物信息。

参考文献:

[1] Lin Gao*, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, Yu-Kun Lai. GaussianMesh: Real-time Large-scale Deformation of Gaussian Splatting. ACM Transactions on Graphics (SIGGRAPH Asia 2024), 2024, 43 (6), 200:1-17.

[2] Jie Yang, Bo-Tao Zhang, Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. HumanLift: Single-Image 3D Human Reconstruction with 3D-Aware Diffusion Priors and Facial Enhancement. ACM SIGGRAPH ASIA 2025, 1-12.

[3] Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022, 10684-10695.

[4] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2021, 65(1): 99-106.

[5] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM Transactions on Graphics, 2023, 42(4): 139:1-139:14.

[6] Yichun Shi, Yichun Shi, Peng Wang, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, Xiao Yang. MVDream: Multi-view Diffusion for 3D Generation. ICLR 2024, 1-18.

[7] Wan Team, Alibaba Group. Wan: Open and advanced large-scale video generative models. CoRR abs/2503.20314 (2025).

[8] Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han. Spherehead: stable 3d full-head synthesis with spherical tri-plane representation. ECCV 2024 324-341.


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/4b1675f2-3f5c-4dba-b7ff-b6748c420880

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章