传统次世代建模流程和AI生成建模流程的对比
A Comparison between Traditional Next-Generation Modeling Processes and AI-Generated Modeling Processes
摘要: 本文聚焦次世代建模流程与AI生成建模流程,旨在剖析二者核心差异及场景适配性。次世代建模基于人工驱动,历经原画分析、中模搭建、高模雕刻、低模处理及贴图绘制等精细流程,模型精度极高,在影视特效、3A游戏和艺术创作领域优势显著,可深度还原细节、表达创意,但存在流程繁琐、成本高昂等问题。AI生成建模以算法为核心,涵盖Text-to-3D和Image-to-3D等技术,能快速将文本或图像转化为三维模型,在概念设计、大规模内容生产和个性化定制场景中效率突出,不过在模型精度和细节处理上有所欠缺,还面临数据与版权难题。研究对比二者在模型精度、技术效率和应用场景等方面的差异,为相关领域技术选择提供参考,指出二者融合是未来发展方向,有望推动数字内容创作行业革新。
Abstract: This article focuses on the next-generation modeling process and the AI-generated modeling process, aiming to analyze the core differences and scene adaptability between the two. Next-generation modeling is driven by humans and goes through meticulous processes such as original art analysis, medium model construction, high model engraving, low model processing, and texture mapping. The model accuracy is extremely high, and it has significant advantages in the fields of film and television special effects, 3A games, and artistic creation. It can deeply restore details and express creativity, but it has problems such as cumbersome processes and high costs. AI generative modeling takes algorithms as the core and covers technologies such as Text-to-3D and Image-to-3D. It can quickly convert Text or images into 3D models and has outstanding efficiency in conceptual design, large-scale content production and personalized customization scenarios. However, it is lacking in model accuracy and detail processing, and also faces data and copyright problems. This study compares the differences between the two in terms of model accuracy, technical efficiency and application scenarios, providing references for the technical selection in related fields. It points out that the integration of the two is the future development direction and is expected to promote the innovation of the digital content creation industry.
文章引用:陈娜娜. 传统次世代建模流程和AI生成建模流程的对比[J]. 人工智能与机器人研究, 2025, 14(4): 990-1003. https://doi.org/10.12677/airr.2025.144094

1. 引言

次世代建模(Next-Generation Modeling)是在传统三维建模基础上发展而来,借助高性能硬件和专业软件,通过划分多边形网格、绘制精细的贴图纹理以及运用先进渲染技术,创建出高度逼真且细节丰富的三维模型。广泛应用于游戏,影视等领域以提升视觉效果。

在游戏开发中,高精度的建模技术不仅为玩家提供了沉浸式的虚拟世界,更通过物理引擎模拟真实交互,为玩家提供了逼真的交互体验;比如在游戏《荒野大镖客2》的自然场景里,通过光线追踪技术让灯光在湿润石板路上呈现出了精确的物理光影效果。让玩家获得前所未有的沉浸式体验。影视特效领域依赖次世代建模技术构建超现实角色与场景,突破了传统拍摄限制,实现了超现实画面的视觉表达。比如,在电影《阿凡达》中,构建了一个充满奇幻色彩的潘多拉星球,有着高耸入云、漂浮在空中的山峦,形态各异的奇异植物,以及极具想象力的外星生物。通过次世代建模技术,电影创作者们将一个完全超现实的世界呈现在观众眼前。

AI建模是指用人工智能技术进行三维模型生成的一系列步骤。它涵盖了从初始数据收集与预处理,选择合适的算法与模型架构,模型训练、评估与优化,以及最终模型部署与应用的全过程。

AI生成建模流程以人工智能为驱动,推动了数字生产革命,以深度学习算法为核心(如GANs、扩散模型、NeRF),实现从文本或者图像到三维模型的一站式生成。AI生成建模流程突破了传统建模流程的效能极限。降低了游戏、影视资产周期(如场景生成效率提升70%)。然而,高数据依赖性、算法黑箱特性及版权归属争议,制约其规模化应用。想要最大程度释放其生产力价值,需要进一步突破现有瓶颈,持续探索算法优化、数据治理及跨学科协同路径等问题。

次世代建模流程以人工驱动,强调精度与可控性。AI生成建模流程依托算法实现自动化创作。人工智能技术的突破性进展驱动传统建模与AI生成建模深度融合,二者协同与博弈才能突破现有技术难题,促使产业流程结构系统性升级。

本文通过对比次世代建模流程和AI生成建模流程的核心差异,明确其场景适配性。主要聚焦于两个方面。第一是明确核心差异:对比次世代建模(依赖人工精细调整)与AI建模(通过数据自动生成)的技术特点。第二是划分适用场景:分析次世代建模在高精度需求领域(如影视特效)和AI建模在快速生产场景(如游戏素材批量生成)中的优势。

2. 传统次世代建模流程

当前,越来越多动画创作者深入挖掘中华优秀传统文化的精神内核,致力于将水墨意境、武侠精神等传统美学元素与“仁义礼智信”等人性价值理念融入作品创作,不仅在国内引发年轻观众的情感共鸣,更凭借独特的东方美学与叙事在国际影展中获得专业领域认可。AI生成技术作为新出现的生产力工具,参与到动画制作的过程中,为动画未来技术发展提供了新的可能性在建模之前首先要对原画进行分析和规划,建模师对于原画的理解会直接影响后期的模型制作方法以及最终的呈现效果。

首先,建模师要对模型进行整体的规划。比如,对于复杂的场景而言(见图1),整个模型要分几张UV贴图,哪些地方可以公用,部分模型是否要增加ID贴图,部分材质的模型UV朝向问题(比如木头材质的模型)等。

Figure 1. Screenshot of the game “Elden Ring”

1. 《艾尔登法环》游戏截图

其次,建模师要对模型的材质进行分析。比如,对于制作精良的人物模型而言(见图2),要提前规划好每个部分的材质,比如毛发,布料,皮革,金属等,不同材质的模型金属度,粗糙度都不一样。并且,同一种材质也要做出区分,比如,铁和黄铜,虽然都是属于金属,但是两种材质的基础颜色,粗糙度,金属度完全不一样。

Figure 2. “Black Myth: Wukong” great sage set

2. 《黑神话:悟空》大圣套装

最后,建模师还要对原画结构进行分析,查看模型穿插是否合理,模型结构是否准确,不同模型之间的比例大小等。

中模(Mid-Poly model)是高模和低模的基础。将搭建好的中模进行卡线,倒角或者导入ZBrush进一步雕刻细节就得到了高模。部分模型通过将中模去除一些多余的点线面,并且还能达到和高模高度重合的模型这就得到了低模[1]

在中模模型的搭建过程中,对模型要求较低,不需要有详细的细节,只要确定模型的比例与大型。初步整理布线,要求布线简洁合理,不能出现多边面(边数大于4的面)。搭建完成之后,根据原画的材质或者部位将大模型拆成相应的小模型,进行卡线形成高模。对于需要进一步雕刻细节的模型,则需要导出obj/fbx格式进入ZBrush进行高模的制作。

以游戏中的剑刃武器为例(见图3),首先要对原画进行分析,确定比例,大型,剑刃长度、花纹走向等。其次是用立方体做出剑身大型,圆柱体构建握柄,剑刃处添加倒角与凹痕,握柄处做出纹样的基本大型。最后将大模型拆分为剑刃、握柄、宝石等若干部分,分别优化布线。导出obj/fbx模型到ZBrush进行进一步的细节雕刻。

Figure 3. Construction of the middle mold of the sword blade

3. 剑刃中模搭建

高模(High-Poly Model)是通过雕刻出磕碰、裂缝、毛孔,布料纤维等细节,让模型显得更加真实,是影视画面或者3A级游戏视觉表现的技术前提。更为主要的是,高模是生成法线贴图、AO贴图(Ambient Occlusion环境遮挡贴图)、曲率贴图的核心基础。通过烘焙技术,高模的细节被映射到低模表面,实现“以假乱真”的视觉效果,实现低模面数下的高精度效果,节省了电脑的算力。

制作高模用到的软件主要是ZBrush。通过给物体添加不同的细分等级来实现不同的雕刻细节。首先是一级细分,大概3000~5000面,主要目的是强化模型的主体结构,比如肌肉块面、盔甲大型等。在一级细分的面数不能对模型进行进一步的细节雕刻时,添加二级细分,大概1万~2万面,主要是给模型进一步地添加层次细节,比如布料褶皱、机械凹槽等。要进行更进一步的细节雕刻需要再加一级细分,即三级细分,大概500万面以上,其主要作用是为模型雕刻更加细小的细节,比如皮肤纹理、锈迹剥落等。

低模(Low-Poly model)是面数极低的模型。由高模拓扑或者中模减面而来。由于面数少,低模本身细节较少,通过烘焙技术,可以将高模的细节信息转移到低模上。极低的面数能够大大减轻计算机硬件的负担,提高模型的渲染速度,确保游戏在各种硬件设备上都能较为流畅地运行。

虽然低模的面数少,但制作低模时的要求却十分繁杂。首先就是低模的大型要尽可能的匹配高模,如果偏差太大,烘焙时就出现问题,导致模型细节信息的缺失或损坏。其次是低模本身的要求,在建模过程中不可以出现多变边面、扭曲面(面的形状发生了不正常的扭曲或变形)、重叠面、重叠点、极点(一个顶点连接的边数超过五条)、多余的点线面等。最后是低模面数的要求,在一些项目中会对低模的面数有严格的限制,比如不能超过10000面,必须得是三边面等。建模师则需要在满足以上两点的基础上再去重新删减面数,规划模型的布线。

在低模模型搭建完成之后还要对模型进行UV拆分(见图4),UV拆分是次世代建模流程中必不可少的一环,模型UV的摆放会直接影响贴图质量、资源利用率及渲染性能等。

拆分模型UV首先要对模型进行规划,按照模型的材质(金属/布料)、功能(可动部件/静态部件)、角度(夹角大于90˚)等规范把模型拆分成独立的UV壳。值得注意的是,断开的位置要隐蔽,不能出现在模型的视觉中心[2]。比如,在拆分人物角色或者生物模型的UV时,要将UV断开在腋下或者后脑勺等视觉盲区。在拆分建筑或者道具的UV时,要将UV断开在腋边缘或者遮挡的地方。其次是UV的展开,可以人工展开或者借助软件(RizomUV)一键自动展开。最后就是UV的摆放,就是将展开的若干个UV摆放在特定的象限。在摆放过程中要注意UV的利用率,UV之间不能重叠,UV之间要留有空隙,部分模型UV朝向要一致,UV边的打直等要求。

Figure 4. UV splitting

4. UV拆分

UV拆分完成之后,还需要将低模进行贴图烘焙(Texture Baking),贴图烘焙是将高模细节映射到低模表面的主要方式,烘焙之后的低模贴图将直接影响模型视觉质量与渲染性能。

在烘焙贴图时首先要确保低模与高模空间位置基本重合,避免投影偏移。主要使用的软件为Marmoset Toolbag,部分有误差的模型可以在软件内通过调整模型包裹值等方法解决。其次就是进行法线贴图(Normal Map)、环境光遮蔽(AO)、曲率贴图(Curvature)、ID贴图的烘焙,最后就是使用Photoshop或者Substance Painter等软件进行手动修补UV接缝处的法线断裂[3]

贴图绘制(Texture Painting)是连接几何模型与视觉表现的核心环节。低面数模型+高质量贴图,可以显著降低GPU负载,通过若干张高质量的精细的贴图模型就可呈现真实材质(如皮革纹理、金属氧化)与复杂光照的效果。主要的贴图类型有基础颜色(Albedo/Diffuse)、法线贴图(Normal Map)、金属度/粗糙度(Metalness/Roughness)、环境光遮蔽(AO)、自发光(Emissive)等。

3. AI生成模型方式

Text-to-3D,即文本到三维模型生成技术,是人工智能领域的前沿探索。它打破传统建模局限,仅需自然语言描述,就能生成三维模型。这项技术融合自然语言处理(NLP)、计算机视觉(CV)与计算机图形学(CG),其核心技术架构主要涵盖以下关键部分。

在Text-to-3D流程中,自然语言处理(NLP)模块是“翻译官”。首先,它要对输入的自然语言文本进行处理。通过算法,将连续的句子拆解为一个个词语,再通过词语识别,提取出关键实体,如人物、物体名称等。接着,进行语义理解,挖掘文本背后的深层语义信息,包括物体特征、空间关系、场景描述等[4]。比如,输入“一只红色的兔子在蓝色蘑菇旁”,NLP模块要精准解析出兔子、蘑菇的属性,以及它们的位置和动作关系,将自然语言转化为计算机可理解的语义表征,为后续三维模型生成提供准确“蓝图”。

计算机视觉(CV)的任务是学习物体样子。它从大量图片里,用卷积神经网络(CNN)找出边缘、纹理这些基本特征,再进一步分析出物体的形状、姿态。然后,通过分析不同角度的图片,或者估算物体深度,把物体变成三维模型。最后,它还会检查模型长得像不像文字描述的样子,帮着优化模型。

计算机图形学(CG)模块负责将前面得到的信息变成真正的三维模型。它先根据 自然语言处理模块解析的语义和计算机视觉模块提取的视觉特征,选择合适的三维建模方法[5]。模型建好后,再给它加上材质、纹理和光影效果,让它看起来更真实。同时,处理好模型结构,方便后续修改和制作动画。

图像到3D (Image-to-3D)仅依靠单张或多张2D图像,就能构建出立体的三维模型。这项技术的核心,在于从二维图像的像素信息中,分析出三维空间中的几何结构与材质属性。平面图像仅记录了物体的二维投影信息,包含颜色、亮度等平面特征。而Image-to-3D技术需要通过分析这些平面信息,还原物体的三维形态。在几何形状重建方面,它需要利用图像中的轮廓、遮挡关系、透视比例等线索,推断物体在三维空间中的尺寸、位置和姿态。例如,从汽车的侧视图中,判断车头、车尾的位置,以及车身的弧度和长宽高比例。在材质信息还原上,该技术通过分析图像的色彩分布、纹理细节、光影变化,推断物体表面材质特性。比如,通过高光区域的大小和亮度,判断材质的反光程度;依据纹理的重复模式和细节,识别材质是金属、塑料还是织物。

首先,图像预处理是图像到3D生成过程中必不可少的一环,通过增强图像质量和分割目标区域,为后续处理奠定基础。在增强图像质量方面,采用直方图均衡化调亮度,高斯滤波去噪声,超分辨率算法放大低清图等方法,为图像补充更多细节信息,确保图像具有更高的清晰度。在分割目标区域部分,靠全卷积网络(FCN)、U-Net等语义分割模型,给像素分类,区分前景和背景,精准定位要转3D的物体。

其次,图像到3D还需要图像的深度图,深度图生成旨在获取图像中物体的深度信息。深度图生成有两种方法,第一种是基于卷积神经网络(CNN)模型能够直接从单张2D图像预测出深度图,第二种方法是结合同一物体多个视角图像,先预测,再用特征匹配,三角测量等方法生成更加精确的深度图。

再次,拿到深度图后,要转点云并优化。主要通过深度图和相机参数,把像素变三维坐标,加颜色,得到带信息的点云[6]

最后,3D模型重建是将点云数据转化为完整3D模型的关键步骤。包括表面重建和模型优化两个阶段。

4. AI生成模型的算法对比

在AI技术飞速发展的当下,AI建模算法在3D内容生成领域取得了显著进展,但不同算法生成模型的质量、效率与适用场景上存在一定差异。本文主要围绕3D GAN (3D Generative Adversarial Networks)、NeRF (Neural Radiance Fields)和SDS (Score Distillation Sampling)三大算法进行讨论。从原理、应用场景、优缺点等方面对这几种算法进行分析对比。

在算法技术原理方面。3D GAN通过生成器与判别器的对抗训练生成3D物体。生成器以随机噪声为输入,通过3D卷积神经网络生成3D体素或网格,判别器则判断输入数据的真实性[7]。NeRF (见图5)通过多层感知机(MLP)建模场景的辐射场,将3D位置与视角方向映射为颜色和体积密度。其核心是体积渲染方程,通过优化生成逼真图像[7]。SDS (见图6)利用预训练扩散模型的分数函数指导3D表示的优化。通过反向扩散过程逐步细化生成结果,目标是最小化生成图像与扩散模型隐空间的差异[8]

图片来源网址:https://zhuanlan.zhihu.com/p/559025481

Figure 5. Diagram of the 3D reconstruction process of NeRF

5. NeRF三维重建过程图

图片来源:Shi, Y., Wang, P., Ye, J., et al. (2023) Mvdream: Multi-View Diffusion for 3D Generation [J].

Figure 6. SDS flowchart

6. SDS流程图

在算法应用场景方面(见图7)。3D GAN主要应用于3D内容创作领域,如游戏开发、影视特效制作等。在游戏开发中,3D GAN能够快速生成多样化的3D角色模型,从人物的外貌特征、服装风格到动作姿态,都可以通过算法自动生成,可以大大缩短游戏的开发周期。NeRF适用于三维场景重建、虚拟现实、增强现实等领域。例如,在VR旅游项目中,可以利用NERF重建著名景点的三维场景,用户佩戴VR设备即可身临其境地游览景点,感受接近现实的视觉体验。SDS算法则在数字艺术领域展现出强大的创作能力。艺术家可以通过输入文本描述、参考图像或风格关键词,利用SDS生成具有独特风格的艺术作品。

Figure 7. Decision tree of algorithm application scenarios

7. 算法应用场景决策树

在算法优势方面(见表1)。3D GAN通过生成器和判别器的对抗训练机制,能够从大量数据中学习3D模型的特征和分布规律。进而能够快速生成不同类型的模型。NERF基于神经辐射场理论,通过采集场景多角度图像,能够精准学习场景的几何结构和外观信息,实现高保真的三维场景重建。用户在使用SDS算法时,可以通过调整参数或输入特定的风格、内容信息,灵活控制SDS生成图像的风格走向和内容表现,实现多样化的图像生成需求。

Table 1. Comparison of advantages of the three major algorithms

1. 三大算法优势对比

指标

3D-GAN

NeRF

SDS

生成质量

中等(几何结构较清晰)

极高(逼真渲染)

极高(细节丰富)

计算效率

快(实时生成)

慢(渲染需大量计算)

极慢(优化迭代耗时)

典型应用

游戏模型、医学成像

影视特效、虚拟现实

艺术创作

在算法劣势方面,3D GAN算法受限于3D卷积的计算复杂度,生成模型细节不够精细,并且容易出现生成的模型重复,细节模糊、几何精度欠佳的问题。NERF训练时计算复杂度极高,需要强大的硬件设备支持,为保证重建效果,NERF需要采集大量不同视角的图像,并且对图像的拍摄角度、光照条件、相机参数标定要求严格,数据采集过程不仅耗时耗力,还需要专业的设备和操作,增加了应用的门槛。SDS的去噪生成过程需要多次迭代计算,导致图像生成速度慢,并且SDS模型训练需要大量的图像数据和强大的计算资源,训练周期长。

5. 关键维度对比分析

在模型精度方面,次世代建模和AI建模各有特点,但在最终呈现的效果方面差异明显。

次世代建模通过手工雕刻与精细处理,精度极高(见图8)。在高模阶段,建模师能利用ZBrush等软件,细致雕琢每一处细节。比如制作人物模型时,可精确刻画皮肤纹理、发丝走向、衣物褶皱等,连微小的毛孔、皱纹都能逼真呈现[9]。拓扑低模时,也能精心优化布线,确保模型在保留高模细节的同时,满足不同应用场景的需求。这种纯手工的精细操作,使得次世代模型在精度和细节还原上达到极高的水准,能达到高质量影视、游戏等项目的严苛要求。

Figure 8. Next-generation modeling process

8. 次世代建模流程

AI建模虽能快速生成复杂模型,但在精度上与次世代建模存在明显差距(见图9)。AI基于数据训练和算法生成模型,对于常见的、有规律的几何形状和结构,能较好还原。然而,面对不规则、个性化的细节,AI难以精准把握。比如生成的人物模型,面部细节可能较为平滑,缺乏手工雕刻的生动感;物体表面纹理可能存在模糊或不精准的情况。此外,AI生成的模型在尺寸比例、结构衔接等方面,偶尔会出现误差,导致整体精度不及次世代建模精细。

技术效率是衡量建模方法适用性的关键。以下从建模周期、自动化率、核心技能三方面(见表2),对比次世代建模流程与AI建模流程。

首先,在建模周期方面,次世代建模流程复杂,耗时长。像《赛博朋克2077》的场景建模,从设计到优化,单区域需2~3个月,仅高模雕刻阶段,为还原建筑表面的机械结构与岁月磨损痕迹,建模师需手动进行多轮细节雕刻与调整,该环节占总周期的30%~40%。AI建模流程在速度上具备显著优势。用腾讯混元3D等工具,在相应端口输入文字描述,几分钟可生成模型雏形。与传统流程相比,AI建模在概念验证与快速原型制作阶段,可将效率提升20~50倍。

Figure 9. Ai-generated modeling process

9. AI生成建模流程

其次,在人力投入方面,次世代建模依赖分工协作。建模师负责几何结构搭建,纹理师通过Substance Painter完成PBR材质绘制,绑定师使用软件进行骨骼蒙皮与动画设置。据行业调研数据显示,3A游戏单角色建模平均需3~5人协作,人力成本占项目预算的25%~35%,并且要求团队成员具备扎实的美术功底与软件操作技能。

AI建模大幅降低人力门槛。小型工作室用Blender结合相关插件,1~2人就能完成虚拟展厅建模,技术人员主要负责数据预处理、参数调整及模型质量把控,AI工具可替代传统流程中建模师、纹理师等多个岗位的重复性工作,人力投入减少约60%~70%。

最后,在流程自动化方面,次世代建模多靠人工。UV展开需手动调整,烘焙贴图要反复测试参数,并进行多轮测试以确保细节准确传递,纹理绘制靠手绘或素材合成,自动化程度不足30%。

AI建模靠算法驱动。如Midjourney与tripo3d.ai配合,输入指令可自动生成模型、映射UV、匹配材质,部分工具实现端到端流程,自动化率超70%,大幅减少人工操作。

Table 2. Comparison of next-generation modeling processes and AI modeling processes

2. 次世代建模流程与AI建模流程对比

流程类型

次世代建模流程

AI建模流程

建模周期

单场景2~3个月

单模型生成仅需几分钟

自动化率

小于30% (UV展开/贴图烘焙需人工干预)

大于70% (端到端生成模型/UV/材质)

核心技能

美术功底 + 软件精通

提示词 + 质量控制

6. 应用场景对比

在影视特效领域,次世代建模是打造视觉奇观的基础。以《指环王》系列电影为例,为还原中土世界的奇幻场景,建模团队使用ZBrush对魔多火山的岩石纹理、刚铎城堡的建筑细节进行毫米级雕刻,结合Maya进行高精度模型拓扑,最终通过Arnold渲染器呈现出震撼的视觉效果。在3A游戏领域,《荒野大镖客:救赎2》的角色建模达到行业标杆水平,人物面部皱纹(见图10)、衣物纤维等细节均通过手工雕刻完成,配合PBR材质制作技术,实现了照片级的画面表现,满足了影视级过场动画和开放世界自由探索的高画质需求。

Figure 10. Screenshot of the game “Red Dead Redemption 2”

10. 《荒野大镖客:救赎2》游戏截图

在艺术深度创作,次世代建模为艺术创作提供了深度表达的空间。在动画电影领域,皮克斯工作室在《寻梦环游记》的角色设计中,通过手工雕刻和细节调整,赋予米格、埃克托等角色独特的面部表情和服饰纹理,将墨西哥文化元素与艺术创意深度融合。在数字雕塑创作中,艺术家可以借助ZBrush等软件,如同使用真实雕刻工具一般,自由塑造作品的形态与细节,使数字作品既保留传统雕塑的艺术质感,又具备数字技术的独特表现力。

次世代建模虽然在很多领域有着出色的表现,但在一些领域仍然存在一定的劣势。由于,高精度建模会导致计算资源的高消耗,因此对硬件性能要求高。

在资源受限的设备和平台上,次世代建模优势难显。像手机、老旧游戏机、低配电脑这类设备,硬件性能不足。次世代建模的模型精细、数据量大,这些设备加载时,要么速度极慢,半天看不到画面,要么直接因内存不够,导致程序崩溃闪退。即使勉强打开,渲染出来的效果也大打折扣,无法呈现次世代建模的高精度细节和逼真质感,体验远不如高性能设备。

AI建模在概念设计阶段展现出强大的效率优势。游戏开发初期,设计师只需输入“赛博朋克风格城市”等文字描述,腾讯混元3D1等工具即可在数分钟内生成多个不同形态的城市模型方案,为团队提供丰富的创意参考。

基于大数据和用户需求,AI建模能够实现高度个性化的创作。在虚拟偶像领域,用户上传照片并设定风格偏好后,AI建模系统可生成专属的虚拟形象,从外貌特征到服饰搭配都符合用户的个性化需求。电商领域,AI建模技术可以根据商品的尺寸、颜色、材质等参数,快速生成定制化的3D模型,例如某家具电商平台,用户在选购沙发时,可通过AI实时调整沙发的颜色、款式和尺寸,并查看3D展示效果,显著提升了用户的购物体验和购买转化率。

AI建模技术虽然在自动化生成、效率提升等方面展现出巨大潜力,但在一些领域仍然存在一定的局限性。

在艺术创作领域,AI建模短板明显。AI建模通过大量的数据学习,模仿生成模型,缺乏创造性和情感表达。做雕塑、绘画这类艺术作品的三维建模时,AI生成的模型通常千篇一律。没有人类艺术家的灵感迸发与情感倾注,难以达到艺术创作的高度与深度。并且,AI建模还面临版权困境。训练数据来源复杂,若未经授权使用他人作品数据,易引发版权纠纷。而且AI生成模型的版权归属模糊,是开发者、使用者,还是训练数据所有者?尚无定论。

比如,以腾讯混元3D为例,在文生模型端口中输入提示词“穿着传统东亚武术服装的角色的3D渲染。角色以自信和镇定的姿态站着,一手拿着剑,另一手拿著卷轴。该角色的服装以复杂的图案和深色和浅色的混合为特色,以紫色和灰色为主。背景是朴素而黑暗的,将注意力集中在人物身上。图像中没有可见的文本。角色的面部表情传达了决心和准备”就会生成四种不同造型的三维模型(见图11),模型的动作姿势,服装配色等基本符合提示词(见图12),但是模型同质化过于严重,模型风格单一,都是简单夸张的动漫风格。无法生成写实类模型。没有对人物皮肤纹理,服饰细节等方面的进一步刻画,达不到工业,游戏,影视等方面的要求。

Figure 11. AI generated model preview

11. AI生成模型预览

Figure 12. AI generated model

12. AI生成模型

7. 真实案例分析

《赛博朋克2077》2作为一款经典的次世代游戏,其技术创新与未来科技主题的结合,展现了游戏行业在图形渲染、交互设计、物理模拟等领域的突破性进展。

《赛博朋克2077》在次世代建模流程技术应用,主要体现在角色设计、材质贴图以及高精度建模等方面。CD Projekt RED为打造《赛博朋克2077》投入了漫长的开发周期,整个项目耗时长达8年。这期间,建模工作贯穿始终,从早期概念设计阶段对游戏世界架构、角色设定的初步建模尝试,到后期对模型不断优化打磨,各个环节均耗费了大量时间。并且,制作这样一款高规格的3A游戏,人力成本也极为高昂。虽然官方未明确披露建模团队的具体人数及花费,但从游戏整体开发成本能侧面推断。《赛博朋克2077》总成本将近33亿元。参考同类型游戏开发成本构成,美术部分(包含建模)通常占据较大比例,预计可达50%~70%。3在模型精度方面,《赛博朋克2077》采用ZBrush等工具进行高精度雕刻,角色面部模型面数突破百万级(见图13)。建筑与道具采用“高模烘焙低模”流程,游戏中单个大型建筑的高模面数可达数千万,但最终渲染时通过LOD系统动态简化。在材质方面,基于物理的渲染(PBR)技术通过金属度、粗糙度、环境光遮蔽等参数,精准模拟材质的光学特性。

Figure 13. Screenshot of the game “Cyberpunk 2077”

13.《赛博朋克2077》游戏截图4

8. 结语

本研究对比了次世代建模流程与AI生成建模流程。浅析了二者在制作流程、模型精度、技术效率、应用场景等方面的差异,为相关领域从业者提供了清晰的技术选择依据。

次世代建模靠人工精细操作,模型精度极高,能完美呈现细节。在影视特效、3A游戏及艺术创作领域,它可打造出超写实场景和角色,深度表达艺术创意。但它流程繁琐、耗时久、人力成本高。

AI生成建模借助算法,效率高、灵活性强。在概念设计阶段,能快速产出多种模型方案,提供创意灵感。在大规模内容生产和个性化定制方面优势突出,如虚拟偶像和电商商品展示。不过,它的模型精度欠佳,存在数据依赖、版权等问题。

未来,二者融合是趋势。次世代建模融入AI提升效率,AI建模优化算法提高精度。二者优势互补,将推动多领域数字内容创作发展。

基金项目

1. 北京印刷学院校内研发项目–科普动画研发模式研究–项目编号Ee202211。

2. 北京印刷学院学校基础研究一般项目–网络强国新时代动画创作及动画人才个人IP开发研究–项目编号Ec202215。

NOTES

1腾讯混元3D是由腾讯开发的一站式3D内容AI创作平台,通过人工智能技术大幅简化3D建模流程,支持用户基于文字描述或图片快速生成高质量3D模型。

2《赛博朋克2077》是一款由波兰游戏开发商CD Projekt Red开发的开放世界动作角色扮演游戏,于2020年12月10日正式发售。

3https://www.baike.com/wikiid/7185488301599670307?baike_source=doubao

4https://www.gamersky.com/news/202006/1299645.shtml

参考文献

[1] 王兆霖. 浅析次世代游戏模型的制作流程[J]. 科学技术创新, 2022(4): 77-81.
[2] 赵梦琦. 基于PBR流程的次世代写实游戏材质设计[D]: [硕士学位论文]. 湘潭: 湘潭大学, 2021.
[3] 何勰绯, 粟云露. PBR方法制作次世代3D游戏道具全流程[J]. 计算机时代, 2023(3): 129-132.
[4] 马锐, 李凯勇. 基于自然语言处理的社交媒体信息个性化推荐[J/OL]. 计算机仿真, 1-6.
http://kns.cnki.net/kcms/detail/11.3724.TP.20250417.1449.006.html, 2025-04-19.
[5] 代佳翼. 计算机图形学与图形图像处理技术分析[J]. 科技资讯, 2024, 22(20): 20-22.
[6] 方捷新. 人工智能技术在数字资产3D建模和场景生成领域的应用研究[J]. 现代电影技术, 2025(2): 39-44.
[7] Yang, Z., Liu, Y., Wu, G., et al. (2023) Learning Effective NeRFs and SDFs Representations with 3D Generative Adversarial Networks for 3D Object Generation: Technical Report for ICCV 2023 OmniObject3D Challenge. arXiv: 2309. 16110.
[8] Zhang, H., Dai, T., Xu, Y., et al. (2023) FaceDNeRF: Semantics-Driven Face Reconstruction, Prompt Editing and Relighting with Diffusion Models. Advances in Neural Information Processing Systems, 36, 55647-55667.
[9] 王学涛. 3D建模在游戏美工当中的运用[J]. 卫星电视与宽带多媒体, 2020(1): 211-213.