SIGGRAPH Asia 2025推出PSP框架：AI程序化生成可控3D场景

AI快讯 2025-11-15

SIGGRAPH Asia 2025发布革命性PSP框架：AI通过程序化脚本生成可控3D场景

在生成式人工智能迅猛发展的浪潮中，AI从文本生成图像、视频，再到构建完整三维世界的能力正在不断突破技术边界。然而，当前主流的三维场景生成技术仍面临显著挑战：模型通常直接输出物体的几何参数（包括位置、尺寸、方向等），导致生成结果频繁出现物体漂浮、相互重叠、模型穿透等物理不合理现象；场景结构缺乏内在逻辑一致性，难以进行后续编辑或重复利用，更无法实现程序化级别的精确空间关系控制。

设想这样一个场景：当您输入描述性语句——

"在暮色笼罩的港口边，一位老渔夫安坐于木质座椅上，身旁立着一盏随风摇曳的油灯。"

人工智能不再简单地在三维空间中放置这些元素，而是生成一套完整的可执行三维构建程序脚本：从灯光投射的角度计算，到渔夫与座椅之间的相对位置关系，全部通过程序逻辑自动推导与精确控制。

这种创新的"从自然语言到程序代码再到三维场景"的技术范式，正是由布朗大学与加州大学圣地亚哥分校联合研究团队开发的Procedural Scene Programs（PSP）框架的核心突破。

与传统直接生成几何模型的方法截然不同，PSP框架让AI不再仅仅是"绘制"虚拟世界，而是像资深程序员一样"编写"出世界的生成规则。系统输出的不再是静态的三维网格数据，而是一套完整的可执行场景脚本，具备卓越的可编辑性、可复用性与结构可控性——这为人工智能构建虚拟世界带来了全新的技术语言与思维方式。

这项突破性研究已被计算机图形学顶级学术会议SIGGRAPH Asia 2025正式接收。

论文标题：Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search
研究团队：Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu（傅楷量）, Rio Aguina-Kang, Stewart Morris, Daniel Ritchie
论文链接：https://arxiv.org/abs/2510.16147

技术实现原理

研究团队提出的Procedural Scene Programs（PSP）是一个采用两阶段流程的程序化场景生成系统。其核心理念是：让人工智能不再直接输出三维几何数据，而是首先生成可执行的构建脚本，再通过程序执行这些脚本来构建完整的虚拟场景。

整个系统架构包含两大核心组件：

1. 程序化场景描述语言（PSDL）——专门用于"编写"虚拟世界生成规则的程序设计语言；

2. 程序搜索纠错模块——在程序执行后自动检测并修复几何错误的高级修正系统。

PSDL负责"生成逻辑"的构建，Program Search模块则专注于"结果修正"。这种"先生成、后调试"的创新机制，使得AI不仅能够自动构建三维场景，还能在程序层面实现自我错误修复，从而生成结构合理、符合物理规律的虚拟世界。

1. 程序化生成语言PSDL：AI编写世界规则的新范式

传统三维场景生成模型通常直接预测每个物体的空间位置、尺寸和方向。然而，由于AI缺乏完善的空间想象与物理推理能力，这种方法经常导致物体漂浮、重叠等不合理现象。为此，PSP框架引入了Procedural Scene Description Language（PSDL），让模型不再"直接构想空间布局"，而是通过程序逻辑来表达复杂的空间关系。PSDL深度集成于Python环境中，全面支持函数定义、循环控制、条件判断与变量绑定等编程特性，使模型能够通过编写规则的方式来精确定义场景的结构与布局逻辑。

典型应用示例：

for i in range(3):
    place('chair', around='table', angle=i*120)

这样的程序语句不仅表达了"放置三把座椅"的最终效果，同时明确定义了"围绕餐桌等角度排列"的空间关系。这种表达方式使得生成过程具备了高度可编辑、可扩展、可复用的特性，让模型真正获得了"程序化建模"的核心能力。

2. 智能纠错模块Program Search：自动修复几何错误

在场景生成完成后，PSP系统会通过Program Search模块对生成场景进行结构与几何一致性全面检测。与传统方法需要反复调用大语言模型修正错误的方式不同，PSP直接在程序空间中搜索最优修复方案，无需进行重复的推理计算。

研究团队定义了多种几何一致性评估指标，包括物体重叠率、物理支撑关系和视觉遮挡情况等。当系统检测到布局异常时，会自动执行变量替换或表达式微调操作，从程序层面彻底解决问题。

实验数据表明，PSP系统平均仅需约7次程序修改即可修复大多数生成错误，且完全无需重新调用大语言模型。这种符号级别的修正机制使得生成过程更加稳定可靠、具备良好的可解释性，并显著提升了三维场景的物理合理性。

性能表现与对比分析

在包含70个开放世界场景提示（涵盖自然环境、建筑景观、幻想主题等多种类型）的测试集上，研究团队对比了三种代表性技术方案：声明式布局系统DeclBase、约束驱动方法Holodeck，以及本文提出的Procedural Scene Programs（PSP）框架。

实验结果显示，PSP在人类主观评价中表现卓越——在与DeclBase的对比中获得82.9%的用户偏好率，与Holodeck的对比中更是达到94.3%的压倒性优势。同时，PSP的生成效率也更为出色：从文本输入到完整场景生成平均仅需约38秒，而DeclBase与Holodeck分别需要40.8秒与约42秒。

除了人工主观评价外，研究团队还开发了一套基于多模态大语言模型的自动化评估方法，用于量化评估生成场景在语义一致性与视觉合理性方面的表现。在PSP与DeclBase、Holodeck的对比测试中，该自动化评估系统分别给出77.1%与90.0%的PSP偏好选择率，与人类主观偏好趋势高度一致，证明了该方法在未来三维场景生成质量评估中的可靠性与实用价值。

技术意义与未来展望

这项开创性研究揭示了一个重要技术趋势：未来的三维场景生成，将不再局限于从文本到几何数据的单向转换，而是一个"程序构建世界（Program the World）"的智能化过程。

通过Procedural Scene Programs（PSP）框架，人工智能的"创造性想象"与"严谨编程逻辑"实现了深度交融：该技术既继承了命令式生成方法的灵活性优势与层次化表达能力，又通过符号化修正机制有效弥补了大语言模型在空间推理与逻辑一致性方面的固有缺陷。这一范式转变，使得AI模型不再仅仅是理解世界的被动观察者，而是进化为能够主动构建复杂虚拟世界的智能开发者。

正如研究团队在论文中强调的：