HumanLift单图重建高保真三维数字人,高斯网多视角生成人脸增强
HumanLift:单图重建高保真三维数字人技术突破

在当今数字化时代,创建具有高度真实感的三维数字人技术已成为影视制作、游戏开发和虚拟现实领域的核心技术需求。这种技术能够为用户带来沉浸式的视觉体验,在多个行业应用中发挥着关键作用。
虽然现有技术在多视角图像重建三维人体模型方面取得了显著进展,但从单张图片生成高质量三维数字人仍然面临诸多技术瓶颈。资源消耗大、技术复杂度高,以及如何在保持三维一致性的同时准确还原参考图像细节,都是当前亟待突破的技术难题。
近期,来自中国科学院计算技术研究所、香港科技大学和卡迪夫大学的科研团队联合研发了一项创新技术——HumanLift。这项基于高斯网(GaussianMesh)的单图三维数字人重建技术,已成功被SIGGRAPH ASIA 2025接收,标志着该领域的重要突破。

- 项目主页:http://geometrylearning.com/HumanLift/
HumanLift技术融合了三维视频扩散模型和人脸增强算法,用户仅需提供单张人体图片,即可生成高质量、高逼真度的三维数字人模型。该技术不仅能够在不可见视角下准确预测人物外观和服饰细节,还能确保多视角一致性,同时保持与原始参考图像的先验信息高度匹配。
下图展示了基于单张参考图像重建数字人的实际效果:

图1 基于单张参考图像重建三维高斯网数字人结果展示
技术背景与发展历程
早期单图数字人重建技术主要分为显式和隐式两大类别。显式方法依赖参数化模型进行基础形状估计,但受限于固定模板结构,难以处理复杂衣着场景。隐式方法通过隐式函数描述复杂几何,重建质量有所提升,但计算成本较高,且因缺乏有效先验,纹理真实感仍面临挑战。
随着生成模型和神经隐式渲染技术的快速发展,二维图像与三维空间之间的联系得以快速建立。Stable Diffusion、神经辐射场(NeRF)和三维高斯泼溅(3D-GS)等技术的出现,为二维生成能力向三维领域拓展提供了有力支撑。
尽管在一般物体单视图重建方面取得进展,但由于三维人体数据稀缺以及人物姿势、服饰的复杂性,将这些技术应用于高真实感三维人体建模仍存在诸多困难。现有方法在服装细节还原、优化效率和面部细节处理等方面仍有提升空间。
核心技术原理
HumanLift技术旨在通过单张人物图像创建能够捕捉逼真外观和细微细节的3D数字形象,实现自由视角浏览。该技术通过两个关键阶段完成重建任务:

图2 HumanLift技术方法框架示意图
第一阶段:多视角图像生成
此阶段专注于从单张日常照片生成逼真的多视角图像。HumanLift设计了具备3D感知能力的多视角人体生成方案,基于Wan2.1视频生成模型构建骨干网络,确保对一般图像的泛化能力。
技术团队开发了两种专门优化的模型——HumanWan-DiT(RGB)和HumanWan-DiT(Normal),分别负责增强不同视角的一致性和几何细节。通过引入SMPL-X的多视角语义图像作为3D先验条件,并结合低秩适应(LoRA)技术进行参数微调,在保证生成质量的同时有效控制内存开销。

图3 HumanWan-DiT网络架构设计
第二阶段:3D-GS模型重建
该阶段利用生成的多视角图像重建人体的3D-GS表示。通过现有生成模型处理超分辨率面部图像,生成具有标准空间相机姿态的高质量多视角面部图像。在重建过程中,以生成的多视角人脸图像和人体图像作为监督信号,基于高斯网表示优化三维高斯球参数。
为确保面部渲染精度,技术团队将面部图像的相机姿态从标准空间转换到SMPL-X头部世界空间,动态调整面部相机姿态,确保与头部3D高斯球始终保持一致。
实际应用效果
真实场景人体图片重建
HumanLift在真实拍摄人物图片中展现出卓越性能,能够准确预测多视角RGB图片和Normal图片。生成的多视角RGB图像具有照片级真实感,法向图能精准反映人物及服饰的几何细节,整体保持优秀的空间一致性。
技术团队测试了不同服饰风格、不同拍摄场景下的人物案例,证明HumanLift在各种条件下均能稳定生成高质量、高一致性的三维数字人。
图4 多样化服饰和衣物下的颜色与法向重建结果
技术验证实验
通过消融实验验证各技术模块的重要性:禁用面部增强导致面部细节严重缺失;禁用SMPL-X姿态优化造成头部渲染效果偏离;禁用人体多视角法线图监督引发服饰细节丢失。
实验证明,面部增强模块显著提升面部细节质量;SMPL-X优化模块有效调整人体姿态参数并同步更新头部相机位姿;法线监督确保3D-GS表征在多视角一致法线图像指导下更好地保留衣物细节。

图5 不同技术策略下的消融实验结果分析
技术总结与展望
随着大模型和生成式人工智能的快速发展,单图全身数字人重建技术迎来了创新突破。HumanLift通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块,有效解决了传统方法在真实感、复杂衣物处理和面部细节还原方面的局限性。
该技术让用户无需复杂数据处理,仅凭单张参考图片就能重建出高质量三维数字人,在新视角下准确估计人物外观和服饰几何,保持多视角一致性,确保生成模型与输入图像信息高度匹配,为三维数字人技术的大规模应用开辟了新的可能性。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/4b1675f2-3f5c-4dba-b7ff-b6748c420880