HumanOrbit 标志着从传统的 3D 重建向利用视频扩散技术融合从单张图像合成连续 360 度视图的重大转变。 虽然传统方法依赖于静态多视角合成,且通常会导致解剖结构失真,但 HumanOrbit 利用时间相干性(temporal coherence)来确保受试者的身份、服装纹理和身体比例在所有角度保持稳定。该框架由研究人员 Lei Wang、Peng Liu 和 Bang Du 开发,有效地弥合了 2D 生成式 AI 与高保真 3D 建模之间的鸿沟。
HumanOrbit 与其他 3D 人体重建方法有何不同?
HumanOrbit 与现有的 3D 人体重建方法的不同之处在于,它将焦点从单个图像生成转向了基于视频的连续轨道生成。 传统框架经常会遇到“身份漂移”问题,即人物的特征会随着摄像机的移动而改变。通过使用视频扩散模型,HumanOrbit 能够确保 360 度旋转中的每一帧在物理和几何上都与原始输入照片保持一致。
长期以来,3D 人体重建中的主要挑战一直是特征的“幻觉”问题。当 AI 尝试仅根据一张正面照片来预测一个人的背面长什么样时,它经常会生成不一致的几何结构或模糊的纹理。当前最先进的模型通常将基于图像的扩散技术适配于多视角合成,但这些模型往往缺乏专业级数字孪生所需的结构严谨性。HumanOrbit 内部时间数据的融合使系统能够将摄像机的路径视为一个逻辑演进过程,从而防止了在逐帧合成中常见的突兀过渡。
HumanOrbit 的技术基础在于其保持几何一致性的能力。通过模拟摄像机围绕受试者轨道运行,该模型保留了不同身体部位之间的空间关系。这防止了常见的错误,例如肢体变形或服装图案在旋转过程中发生不自然的偏移。其结果是视图之间的无缝切换,这可以作为创建三维资产的可靠蓝图。
使用视频扩散模型进行多视角合成有哪些优势?
使用视频扩散模型进行多视角合成的主要优势在于其内在的时间相干性,这种相干性能稳定不同视角下的视觉特征。 与静态模型不同,视频扩散模型保持着对前几帧的“记忆”,确保了织物褶皱和面部特征等细微细节保持一致。与基于图像的基准模型相比,这种方法产生的高保真 3D 模型具有更出色的完整性。
在计算机视觉领域,视频扩散模型已展现出一种独特的能力,即生成与给定提示或参考图像严格对齐的光影写实结果。HumanOrbit 利用了这一点,将 360 度轨道运行视为一个电影序列。这种方法允许对视角进行更自然的融合,使 AI 能够理解人体的是三维体积,而不仅仅是预测一系列平面图像。其优势包括:
- 时间稳定性: 消除了不同视角之间的闪烁和扭曲。
- 身份保留: 确保“数字孪生”可以被识别为原始照片中的特定个体。
- 高分辨率: 支持生成复杂的纹理和服装细节,而这些细节在低维建模中经常丢失。
- 自动化工作流: 通过产生几何结构合理的初始帧,减少了手动清理的需求。
HumanOrbit 可以用于虚拟试穿或时尚应用吗?
由于能够从单张照片生成高分辨率的纹理网格,HumanOrbit 非常适合虚拟试穿和时尚应用。 通过生成一致的 360 度视图,该模型允许零售商为客户或服装创建数字孪生。这使用户能够在虚拟现实环境中,从每一个可能的角度观察衣服的垂坠感和合身程度。
包括 Lei Wang 及其同事在内的研究人员强调,生成的多视角帧会被输入到一个专门的重建流水线中。该流水线将视频数据转换为纹理网格,这是电子商务和游戏领域 3D 资产的标准格式。在零售场景下,这意味着购物者只需上传一张照片,就能立即看到自己穿着新系列服装的 3D 化身,且包含对面料纹理和合身度的精确呈现。
除了时尚领域,生成式 AI 在娱乐业的意义也十分重大。视频游戏的角色创建者和电影视觉特效通常需要数小时的手动劳动才能将概念草图转化为 3D 模型。HumanOrbit 通过提供一个保留原始艺术意图的高保真起点,简化了这一过程。这种速度与精度的融合代表了自动化 3D 内容创作迈出的重要一步。
高保真 3D 重建的未来
展望未来,研究团队旨在完善 HumanOrbit 框架,以处理更复杂的姿势和多样的光照条件。虽然当前模型在站立受试者方面表现出色,但未来的迭代可能会整合动态动作,从而实现对运动中人体的重建。随着计算机视觉的不断演进,像 HumanOrbit 这样的工具很可能成为元宇宙开发和先进远程临场技术的基础。
该研究的实验结果证实,HumanOrbit 在视觉质量和结构精度方面均优于当前最先进的基准模型。通过优先考虑视频相干性与 3D 几何的融合,Lei Wang、Peng Liu 和 Bang Du 为 AI 驱动的内容创作中一个最持久的问题提供了稳健的解决方案:即实现从扁平图像到生动数字替身的转变。
Comments
No comments yet. Be the first!