HumanLift单图高保真三维数字人重建,高斯网多视角生成技术
HumanLift:单图高保真三维数字人重建技术突破
在当今数字化时代,打造具备高度真实感的三维虚拟人物已成为影视特效、游戏制作以及虚拟现实/增强现实(VR/AR)等领域的核心技术需求。这种技术不仅能够创造出栩栩如生的数字角色,更能为各类沉浸式体验提供强有力的支撑。
虽然现有技术在多视角图像重建高质量、可动画三维人体模型方面取得了显著进展,但基于单张图片实现高真实感三维数字人重建仍然面临诸多技术瓶颈。这一过程不仅计算复杂度高、资源消耗巨大,更需要在三维空间一致性与原始图像保真度之间找到完美平衡。
具体而言,如何精准还原人物的外观特征与姿态细节,如何生成具有高度真实感且细节一致的服装纹理和面部特征,都是当前技术亟待突破的关键难题。
近期,来自中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的科研团队联合推出了一项创新性技术——HumanLift。该技术基于单张参考图像实现了高斯网(GaussianMesh)数字人全身重建,相关研究成果已被计算机图形学顶级会议SIGGRAPH ASIA 2025正式接收。
项目主页:http://geometrylearning.com/HumanLift/
这项突破性技术融合了三维视频扩散模型与面部增强算法,开创了单图高斯网数字人重建的新范式。用户仅需提供一张人体图片,系统就能自动生成高质量、高逼真度的三维数字人模型。该技术不仅能够在不可见视角下准确预测人物外观和服装几何细节,还能确保多视角间的高度一致性,同时完美保留原始图像中的人物特征信息。
下图展示了基于单张参考图像重建数字人的典型效果:
图1 基于单张参考图像重建三维高斯网(GaussianMesh)数字人成果展示
技术背景与发展历程
早期的单图数字人重建技术主要分为显式与隐式两大流派。显式方法通常依赖参数化人体模型,能够较好地估计基础人体形状,但由于模板结构的固有局限性,在处理复杂服装时往往力不从心。隐式方法则通过隐式函数来描述复杂几何形体,虽然重建质量有所提升,但计算成本较高,且因缺乏有效先验知识,生成纹理的真实感仍面临挑战。
近年来,随着生成模型(如Stable Diffusion)和神经隐式渲染技术(如神经辐射场NeRF、三维高斯泼溅3D-GS)的迅猛发展,二维图像与三维空间之间的桥梁被快速搭建起来,使得二维生成能力得以有效赋能三维内容创作。
尽管在普通物体的单视图三维重建方面取得了显著进展,但由于三维人体数据的稀缺性以及人物姿态、服装的复杂性,将这些技术拓展到高真实感三维人体建模领域仍然困难重重。
部分研究尝试从参考图像中提取文本信息,并借助扩散模型与可微渲染技术进行建模,但受限于文本条件的模糊性,难以精确还原精细的服装细节,且优化效率较低。随着多视图扩散生成技术的发展,研究者开始探索从单张图像直接生成多视角人体图像,以规避复杂的优化流程。
例如,将多视图生成与3D高斯泼溅技术结合为统一优化模块的方法,由于缺乏三维先验知识,往往导致视角不一致的问题。另一些方法则引入显式三维人体先验,结合生成模型以提升多视图一致性,虽然在服装与姿态的真实性上有所改善,但由于面部在全身图像中占比过小,仍然存在面部细节缺失、一致性与真实感不足的缺陷。
核心技术原理解析
HumanLift技术的核心目标在于:给定单张人物图像,创建能够捕捉逼真外观和细微细节(如服装纹理)的3D数字形象,同时确保面部细节清晰可辨,实现自由视角的流畅浏览。该技术通过两个精心设计的阶段完成这一复杂任务,其方法框架如下图所示:
图2 HumanLift技术方法框架示意图
第一阶段:智能多视角图像生成
这一阶段的核心任务是从日常拍摄的单张人物照片中生成逼真的多视角图像。HumanLift创新性地设计了一种具备三维感知能力的多视角人体生成方法。
为确保对各类图像的广泛适应性,生成器的骨干网络基于当前先进的视频生成模型Wan2.1构建——该模型在大量二维通用视频数据上完成训练,具备强大的高保真视频推理能力。
HumanLift在此基础之上引入了额外的三维人体先验知识,专门针对二维人体动画任务进行优化,同时继承了预训练模型的权重优势。
具体而言,该阶段设计了两种专门针对人体特性优化的模型——HumanWan-DiT(RGB)和HumanWan-DiT(Normal),旨在增强不同视角间的一致性和几何细节表现力。
同时,技术引入了SMPL-X的多视角语义图像作为三维先验条件,并将其巧妙嵌入到Wan2.1框架中,提供精准的三维引导。为在减少训练内存开销的同时保持模型生成能力,方法采用了低秩适应(LoRA)技术进行内存高效的参数微调。
此外,通过一个由堆叠三维卷积层组成的轻量级条件编码器,对人体三维先验信息进行高效编码,其网络结构如下图所示:
图3 HumanWan-DiT网络架构设计
其中包含两个关键组件:
HumanWan-DiT(RGB):以SMPL-X语义图像为条件输入,以人体全身RGB图片为参考输入,最终输出高质量的多视角RGB图像;
HumanWan-DiT(Normal):以HumanWan-DiT(RGB)生成的多视角图像为条件输入,以预测的法向图片为参考输入,最终输出精确的多视角法向图像。
第二阶段:精准3D-GS模型重建
该阶段充分利用第一阶段生成的多视角图像(包括法向图和RGB图),重建人体的3D-GS表示。
首先,该方法借助现有先进生成模型对超分辨率面部图像进行多视角生成,创造出具有标准空间相机姿态的高质量多视角面部图像。
在重建过程中,以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网表示对三维高斯球的参数进行精细化优化。
特别需要注意的是,为确保面部渲染的精确性,需要将面部图像的相机姿态从标准空间转换到SMPL-X头部所在的世界空间,以此监督面部部分的高斯球属性,获得极致质量的人脸细节。
由于初始SMPL-X与人体3D-GS在位置上存在固有误差,HumanLift会根据每次迭代优化后的SMPL-X姿态参数,动态调整面部相机姿态,确保面部相机姿态与头部3D高斯球始终保持完美匹配。
实际效果展示与分析
真实场景人体图片重建效果
为充分展示HumanLift在真实拍摄人物图片中的卓越表现,对于每张参考图像,我们的方法能够精准预测多视角RGB图片和法向图。
实验结果表明,HumanLift生成的多视角RGB图像具备照片级真实感,多视角法向图能够精确反映人物及服装的几何细节,整体保持了出色的空间一致性。
为进一步验证HumanLift的泛化能力,图4展示了更多人物的重建结果,涵盖了不同服装风格、多样拍摄场景下的各类案例。无论参考图像中的人物特征、服装类型如何变化,HumanLift均能稳定生成高质量、高一致性的三维数字人。更多精彩结果欢迎访问项目主页。
图4 多样化服装和衣物下的颜色与法向重建结果
消融实验验证
为系统验证各技术模块的实际贡献,图5展示了HumanLift的消融实验结果,对三种消融策略(禁用面部增强、禁用SMPL-X姿态优化和禁用人体多视角法线图监督)进行了详细的定性对比分析:
禁用面部增强:面部细节显著缺失,真实感受损严重;
禁用SMPL-X姿态优化:人体姿态与头部相机位姿匹配度降低,头部渲染效果偏离真实场景;
禁用人体多视角法线图监督:服装细节大量丢失,几何结构呈现不够准确。
图5的实验结果充分证明:面部增强模块通过生成先验知识显著提升了面部细节质量;SMPL-X优化模块不仅能有效调整人体姿态参数,还能同步更新头部相机位姿,引导3D-GS模型生成更符合真实感的头部渲染效果;基于微调HumanWan-DiT(Normal)模型提供的法线监督,使得3D-GS表征在多视角一致法线图像的指导下,能够更好地保留服装细节。
图5 不同技术策略下的消融结果对比分析
技术总结与展望
随着大模型和生成式人工智能技术的飞速发展,单图全身数字人重建领域迎来了全新的技术范式。传统重建方法存在渲染结果真实感不足、复杂服装和姿态难以精准重建等固有局限;而现有的生成式方法,也难以在人物姿态、服装细节和人脸真实感与一致性重建之间实现理想平衡。
HumanLift技术提出了一种创新性的解决方案,通过微调基于三维扩散先验的视频生成模型和专门设计的面部增强模块,成功突破了技术瓶颈。借助这一先进方法,用户无需进行繁琐的数据预处理,仅需输入单张参考图片,就能快速重建出高质量、高逼真度的三维数字人——不仅能在新视角下准确估计人物外观和服装几何特征,还能保持多视角间的高度一致性,同时确保生成的三维模型完美符合输入图像中的人物信息。
这项技术的推出,标志着三维数字人重建领域迈入了新的发展阶段,为影视制作、游戏开发、虚拟现实等众多行业提供了强大的技术支撑,必将推动整个数字内容创作生态的革新与进步。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/4b1675f2-3f5c-4dba-b7ff-b6748c420880