基于风格编辑的智能服饰样式生成方法
Fashion Style Generation Method Based on Style Editing
DOI: 10.12677/airr.2024.133065, PDF, HTML, XML,    科研立项经费支持
作者: 陈 康, 骆雨琪, 胡慧颖, 王皓捷:浙江工业大学之江学院信息工程学院,浙江 绍兴
关键词: Style GAN风格编辑服饰样式生成主成分分析Style GAN Style Editing Fashion Style Generation Principal Component Analysis
摘要: 随着市场对个性化服装需求的增长,传统服装设计流程面临创新费时和效率低的挑战。为此,本文提出了一种基于风格编辑的智能服饰样式生成方法,通过整合深度学习技术来优化服饰设计流程。首先,利用网络爬虫技术构建多样化风格的服饰图像数据集,并进行去噪及归一化处理以提高数据质量。接着,对Style GAN模型进行参数微调,使其学习目标数据集中的服饰样式和风格,以减少生成图像与目标风格之间的偏差。通过对Style GAN模型潜在空间的主成分分析,提取关键的服饰风格语义特征,并利用这些特征向量,实现在多个维度上的服饰风格控制,包括款式、图案明暗、轮廓及颜色等。在此基础上,将调整后的潜向量映射到图像空间后,生成具有不同风格的服饰图像。最后,实验结果验证了本文所提的智能服饰样式生成方法的有效性。
Abstract: As the market demand for personalized fashion grows, traditional clothing design processes face challenges with time-consuming innovation and low efficiency. To address this, this paper introduces a fashion style generation method based on style editing, integrating deep learning technologies to optimize the fashion design process. Firstly, a diverse style fashion image dataset was constructed using web scraping techniques, followed by denoising and normalization to enhance data quality. Subsequently, the Style GAN model was fine-tuned to learn the fashion styles and characteristics from the target dataset, minimizing the discrepancies between generated images and target styles. Principal component analysis of the latent space within the Style GAN model was conducted to extract key semantic features of fashion styles. Utilizing these feature vectors, control over various dimensions of fashion style was achieved, including style, pattern brightness, contour, and color. Upon adjusting the latent vectors, they were mapped back to the image space, generating fashion images with varied styles. Finally, experimental results confirmed the effectiveness of the proposed fashion style generation method.
文章引用:陈康, 骆雨琪, 胡慧颖, 王皓捷. 基于风格编辑的智能服饰样式生成方法[J]. 人工智能与机器人研究, 2024, 13(3): 636-647. https://doi.org/10.12677/airr.2024.133065

1. 引言

中国绍兴柯桥区作为全国知名的全球纺织城和世界纺织品贸易中心,服装行业成为其重要的经济支柱之一。随着社会生活水平的提升和审美观念的演变,消费者对服装的需求逐渐提高,不仅追求服装的质量和舒适度,还注重其独特的风格和设计感。传统的服装设计方法逐渐难以满足消费者日益增长的需求,而将人工智能技术融入服装设计流程则能有效提供设计框架,缩短设计周期,提升设计效率及准确性,从而具有显著的商业潜力。

针对服饰风格自动生成[1],研究主要分为两个阶段:特征方向提取和分层编辑。特征方向提取阶段涉及从输入图像中识别并提取关键的潜在风格方向,为风格生成提供基础;分层编辑阶段则通过将输入修改为多个图层,并在这些图层上执行指定编辑,以精细化控制风格变换。近年来,众多学者围绕此议题开展研究。例如,文献[2]利用基于Cycle GAN的生成对抗网络,实现了在保持服装形状不变的条件下的风格迁移,有效地完成了服装风格的转换并保证了图像的整体质量。此外,文献[3]提出了专用的SFGAN (Style Fusion GAN)网络,专注于服饰风格的融合,实现了多样化风格的生成。这些研究表明,结合生成对抗网络的AI技术不仅能够提升服饰设计的创新性和多样性,而且为服饰产业的发展提供了新的动力。

针对图像风格属性的不可编辑问题[4],目前有三种主流的研究方向:1) 采用了由粗到精的两阶段属性编辑方法。在第一阶段,引入了基于时装关键点的注意力机制,该机制能生成针对目标属性的注意力图,确保在编辑时装属性时不会影响非目标属性。随后,在第二阶段,利用图像补全模型Deep Fillv2对初步结果进行细化,以生成与原始图像纹理一致的效果。2) 基于三元组损失约束的编辑方法,该方法通过三元组损失约束来提取输入图片的非目标属性特征,并确保生成的图像在非目标属性上与原图尽可能相似,实现对特定属性的精确编辑。3) 基于时装判别损失的属性编辑技术,它将非目标属性视为判别依据,通过预训练的卷积神经网络提取编辑前后图像的特征,并计算判别损失以确保只改变目标属性。

尽管这些方法在编辑精度和目标属性保持方面取得了进展,但服饰风格属性的提取和控制仍面临挑战。1) 服饰风格属性具有多种多样的特点,这种特点对于传统技术难以提取到我们想要的风格属性。这对之后的服饰风格编辑也带来了不小的困难。2) 风格属性不知重要性问题方面:由于服饰风格属性数量众多,各风格属性对于服饰风格的影响大小也不能确定,因此在实际的服饰风格设计中,会存在因提取的风格属性不重要而导致服饰风格的改变不明显。

为此,本文构建了一个基于Style GAN的服饰风格生成系统。首先,通过网络爬虫技术收集多种风格的服饰图像,并对图像进行去噪和归一化处理,确保数据质量。随后使用预训练的Style GAN模型[5],并通过反向传播与梯度下降技术微调模型参数,以减小生成图像与目标风格间的差异。模型训练完成后,通过主成分分析识别和提取潜在空间中关键的服饰风格特征。利用这些特征向量,系统在多个维度上精确调整服饰风格,如图案明暗、轮廓调整及颜色饱和度和亮度。通过将调整后的潜向量映射回图像空间,系统成功生成多种风格的服饰图像。在此基础上,构建了一个服饰风格生成系统,用于设计生成风格多样的服饰。

本文的组织结构如下:在第2节中,详细阐述了基于Style GAN的服饰风格生成网络模型构建方法。第3节中,提出了一种基于潜向量的智能服饰样式可编辑方法。在第4节中,描述了服饰风格生成系统的设计流程,包括系统的架构和关键步骤。接着,在第5节中,展示了对本文所提出方法的实验结果进行的分析和讨论。最后,在总结和展望部分,对本文的研究内容进行了总结,并提出了未来的研究方向和改进的建议。

Figure 1. Architecture of the fashion style generation based on Style GAN

1. 基于Style GAN的服饰风格生成网络架构

2. 基于Style GAN的服饰风格生成网络模型构建

风格迁移生成对抗网络[5],简称Style GAN,是由NVIDIA研究团队开发的一种新的生成对抗网络架构。Style GAN以其合成高分辨率、高质量图像的能力而闻名。与传统的生成对抗网络(GANs)相比,Style GAN引入了风格转移机制,允许在多个层面上控制生成图像的细节,从粗糙到精细。它通过将潜在空间的输入向量通过映射网络转换至新的风格空间来实现此功能,其中风格空间的每个维度都控制着生成图像的不同风格。

服饰风格生成的网络模型构建过程如下:首先,利用数据爬虫技术构建一个样式多样的服饰数据集,用作模型的训练集。然后,为了更好地适应服饰风格生成的需求,使用这些服饰数据对预训练的Style GAN模型进行参数微调,目的是精确捕捉服饰样本的潜在分布特性及关键特征。在模型的映射网络中,潜在空间的输入向量被转换为风格空间的表示向量,这些向量主要负责调节生成图像的风格层面。在训练过程中,Style GAN的自适应实例归一化(Ada IN)层根据从风格空间提取的指令调整图像的内容和风格,有效实现了服饰风格的多样化转换。

基于Style GAN的服饰风格生成网络架构如图1所示,该架构主要由以下几个核心模块组成:映射网络、风格调制、生成器、判别器以及损失函数,具体描述如下:

映射网络(Mapping Network)映射网络的主要功能是将输入的潜在向量z转换为一个中间向量w。此过程通常由多层全连接层(MLP)实现。对于输入 zZ 来自高斯分布的潜在空间,映射网络f可以表示为:

w=f( z; θ f ) (1)

其中, θ f 表示映射网络的参数。

风格调制(Style Modulation)生成过程中,Style GAN使用一个独特的风格调制技术来调整生成图像的风格。这是通过自适应实例归一化(Ada IN)层完成的。每个Ada IN层接收特征图 x i 和风格参数w,并输出调制后的特征图:

Ada IN( x i ,w )= w s,i x i μ( x i ) σ( x i ) + w b,i (2)

这里, w s,i w b,i 是从中间向量w通过一个全连接层得到的比例和偏移参数, μ( x i ) σ( x i ) 分别是特征图 x i 的均值和标准差。

生成器(Generator)生成器从一个固定的输入噪声向量n开始,并逐步增加其分辨率,以生成最终的高分辨率图像。每一步都包括一个卷积层和一个风格调制层,以及可能的上采样。生成器的每一层都受到风格向量w的控制,确保整个图像生成过程中风格的一致性。

判别器(Discriminator)判别器是一个典型的卷积神经网络,用于识别图像是否由生成器生成。它逐渐减少图像的空间维度,直到最后一个层级,通常包含一个或多个全连接层,最终输出一个标量,表示图像为真实或生成的概率。

损失函数(Loss Functions)Style GAN的训练依赖于生成对抗网络的标准损失函数,这包括生成器和鉴别器的对抗损失。生成器的目标是最小化以下损失:

L G =E[ logD( G( z ) ) ] (3)

判别器的目标是最大化其能够正确识别真实和生成图像的能力,其损失函数为:

L D =E[ logD( x ) ]E[ log( 1D( G( z ) ) ) ] (4)

其中x是真实图像, G( z ) 是生成图像, D( ) 是鉴别器函数。

3. 基于潜向量的智能服饰样式可编辑方法

在服饰设计领域,风格多样性和个性化需求的不断增长要求设计师能更精确地理解和创造各种服饰风格[6]。传统设计方法受限于人工直觉和经验,往往难以捕捉和有效利用复杂的风格数据。为此,本节将提出一种基于潜向量的智能服饰样式可编辑方法。该方法针对Style GAN潜空间中的潜向量进行操作,通过主成分分析(PCA)技术提取潜向量的主要风格特征。然后,通过对潜变量在这些主成分方向上投影,实现多样化风格的智能服饰生成。具体方法描述如下:

步骤:生成器潜向量采样。在已训练好的Style GAN模型中,从潜空间 Z 随机采样潜向量z,这些潜向量将被用来生成服饰图像。采样将尽可能覆盖潜空间,以保证样本的多样性和代表性。

步骤二:图像生成与特征图计算。使用这些潜在向量通过Style GAN生成器G产生对应的服饰图像。对每一生成图像,进一步提取其特征图,这些特征图将用于后续的风格分析。

步骤三:计算潜向量的协方差矩阵。对采样得到的潜向量进行统计分析,计算其协方差矩阵C

C= 1 N i=1 N ( z i μ ) ( z i μ ) T (5)

其中,μ是所有潜向量的均值,N是潜向量的规模。计算得到的协方差矩阵C描述了潜向量间的变异性和相关性。

Figure 2. Style editing of fashion style latent vectors

2. 服饰风格潜向量编辑

Figure 3. Visualization of fashion generated with style editing across various dimensions

3. 不同维度风格编辑下的服饰生成可视化效果

步骤四:服饰风格语义特征提取。为捕获潜向量中的服饰风格语义特征,本文将对其协方差矩阵进行主成分分析(PCA),得到对服饰风格生成影响最大的几个主成分方向,为后续的风格编辑提供关键的投影方向。通过求解协方差矩阵C的特征分解优化问题,获得影响服饰风格的主成分方向:

C v k = λ k v k (6)

其中, λ k v k 分别是第k个最大特征值及其对应的特征向量。每个特征向量 v k 定义了潜在空间中一个主要的风格变化方向。

步骤五:潜向量风格编辑。根据PCA结果,选取影响服饰风格的主成分进行编辑。通过调整潜向量z在主成分向量 v i 上的投影,精细调节生成图像的服饰风格,如图案、样式、颜色等。风格编辑操作描述如下:

z=z+α v i (7)

其中,α是一个标量,用于表示调整的强度或步长,允许在维持原有风格基础上进行微调或进行较大幅度的风格转变。 v i 是从PCA中选定的影响服饰风格的主成分。通过改变α的值,可以实现从细微调整到完全改变某一风格特征的效果,如图2所示。

步骤六:生成风格编辑服饰。将调整后的潜在向量 z 输入到StyleGAN的生成器中,产生具有新风格特征的服饰图像,从而实现风格多样化的服饰图像生成,如图3所示。

4. 服饰风格生成系统流程

下面给出里本文所提的服饰风格生成系统流程,如图4所示。核心步骤描述如下:

Figure 4. Workflow of the fashion style generation system

4. 服饰风格生成系统流程

步骤:服饰数据集构建。通过自动化网络爬虫技术下载多种风格的服饰图像,收集包含多种风格、款式和时尚趋势的服饰图像,构建服饰风格数据集。并对服饰图像样本进行一系列预处理步骤,包括去除背景噪声和图像标准化处理,确保服饰在图像中的主体位置和大小一致性,为Style GAN网络模型训练提供高质量的输入数据。

步骤二:构建服饰风格Style GAN网络模型。加载预训练的Style GAN模型,并使用服饰数据集微调模型参数,使其能够学习和模拟特定数据集中的风格分布。微调优化过程使用反向传播和梯度下降算法,旨在最小化生成图像与实际图像之间的差异,以确保所生成的服饰图像能够尽可能地逼近真实服饰图像。

步骤三:服饰风格语义特征提取。在完成Style GAN模型训练后,采样模型潜空间中的承载风格表达的潜向量。通过潜向量的协方差矩阵分析,运用主成分分析技术进行降维,从高维潜空间中提取关键的服饰风格语义特征。这些特征具有较强的风格解释能力,可以表征某个维度的服饰生成风格。

步骤四:服饰风格编辑。使用主成分分析提取的风格语义特征,对潜变量进行投影编辑,从而控制服饰图像生成的风格,如图案的明暗、调整服装的整体轮廓或改变服饰颜色的饱和度和亮度等。

步骤五:多风格服饰生成。在服饰风格编辑完成后,将调整后的潜向量通过Style GAN的生成器映射到图像空间,生成了具有不同风格特点的服饰图像。

5. 实验结果与分析

本节主要是对实验结果进行分析,包括实验环境配置、模型指标评价和结果可视化分析等方面。

5.1. 实验环境与数据集

本实验的硬件配置如下:处理器采用英特尔Core i9-13900k,搭载128 GB系统内存;GPU是NVIDIA GeForce RTX 3090显卡。软件方面,操作系统使用的是Ubuntu 20.04LTS,搭配510.47.03版本的显卡驱动。深度学习框架采用Pytorch 1.21,运行在CUDA 11.8环境上,编程语言为Python 3.11,Gradio作为UI界面设计。

Figure 5. Fashion style dataset

5. 服饰风格数据集

服饰风格数据集由8726张不同风格的服饰图片组成,如图5所示,这些图片主要通过网络爬虫技术收集得到。对于服饰图像样本,首先进行去噪处理及服饰轮廓提取,随后将图像统一调整至512 × 512像素分辨率,以满足Style GAN模型输入的规格要求。

5.2. 模型评价指标

为了评估生成图像质量和训练效率,本文使用Frechét Inception Distance (FID)、Seconds per Kimg (Sec/Kimg)、以及Augmentation强度指标,具体描述如下:

FID指标:衡量生成图像与真实图像集之间差异,它通过比较两个图像集的Inception网络特征的分布来计算。FID越低,表示生成图像的质量越高,与真实图像集越相似。

FID= μ r μ g 2 +Tr( Σ r + Σ g 2 ( Σ r Σ g ) 1 2 ) (8)

其中, ( μ r , Σ r ) ( μ g , Σ g ) 分别是真实图像集和生成图像集的特征的均值和协方差矩阵,Tr表示矩阵的迹(即对角线元素之和)。

Sec/Kimg指标:衡量模型训练效率,表示生成1000张图像所需的时间(以秒为单位)。该指标越低,说明模型的训练速度越快。

Augmentation强度指标:衡量数据增强强度。在Style GAN中,数据增强可以帮助模型在训练过程中增加数据的多样性,避免过拟合。Augmentation强度的调节直接影响到生成图像的多样性和真实性。

5.3. 模型的服饰图像生成性能分析

在本节,将使用服饰风格数据集对Style GAN模型的参数进行微调,进行了190轮的训练。图6展示了Style GAN模型的训练和评估结果,包括FID、Sec/Kimg和Augmentation指标。结果表明,模型的训练过程收敛速度较快,并最终趋于稳定状态。

Figure 6. Evolution of metrics over training iterations

6. 各项指标随训练迭代变化曲线

从FID指标的趋势图可知,模型的FID值从一个较高的初始值迅速下降,在训练初期表现出明显的收敛特性。随着训练的深入,FID值趋于平稳,显示出在图像质量方面的显著改善。最终,FID值稳定在一个较低水平,说明生成图像的质量与真实图像在统计特征上的一致性得到了显著提升。在Sec/Kimg趋势图可知,模型每处理千张图像所需的秒数在训练的初始阶段维持在一个相对平稳的状态,随后在一定训练轮数后出现了轻微的上升,这可能是由于模型逐渐适应复杂数据集和训练过程的自适应调整所致。整体来看,Sec/Kimg的值维持在一个较低的范围内,显示出模型在训练效率上的优势。Augmentation指标则反映了训练过程中数据增强的变化情况。观察Augmentation值随训练轮数的变化,可以发现其呈现波动上升的趋势,这表明随着模型训练的进行,为了进一步提升模型的泛化能力,数据增强的程度逐渐加强。这种策略有助于模型学习到更多样化的服饰风格特征,避免过拟合,增强模型对新样本的适应性。

Figure 7. Fashion images generated by the model after 10 training epochs

7. 训练10轮后模型的生成服饰图像

Figure 8. Fashion images generated by the model after 150 training epochs

8. 训练150轮后模型的生成服饰图像

进一步,本文将分析Style GAN模型在不同训练阶段的服饰图像生成质量,并采用可视化方式呈现了模型的性能演变。图7展示了模型在经过10轮训练后生成的服饰图像,而图8则展示了150轮训练完成后的结果。对比两个阶段的生成图像,可以明显观察到图像质量的逐步提升,特别是在服饰的细节表现和风格一致性方面。实验结果显示,随着训练轮数的增加,模型能够逐渐学习到更为精细和多元的服饰风格特征,生成图像的真实性和视觉吸引力显著增强。通过对Style GAN模型的微调,配合适当的数据增强策略,能够有效提升生成服饰图像的质量,同时保持了训练过程的高效性。

5.4. 服饰风格编辑结果分析

在本节中,展示了基于潜向量的服饰风格编辑性能的详细分析。首先,从Style GAN的潜空间中抽取一系列向量,这些向量随后被用于主成分分析(PCA)以进行特征提取。通过该过程,选取了累积贡献率前90%的特征向量来定义服饰的风格特征。如图9所示,各主成分在相应维度上进行投影编辑,进而通过生成网络产生具体的服饰风格变化。

Figure 9. Visualization of fashion style editing results

9. 服饰风格编辑结果展示

分析结果表明,利用PCA提取的潜空间特征包含丰富的语义信息,具有显著的可编辑性。例如,第0维的特征向量显著关联服饰的整体款式;通过调整与该特征向量关联的权重值,便能够生成不同款式的服饰图像。类似的编辑效果也观察到在其他维度特征上,其中每个特征向量对应控制着服饰图像的特定视觉属性,如图案的类型、颜色的变化或纹理的细节等。

5.5. 基于Gradio的服饰生成系统UI展示

为实现多样化的服饰风格生成,本研究设计并实现了一个基于Gradio的智能服饰风格生成系统,其用户界面如图10所示。系统界面分为两个主要部分:参数调整区和风格生成展示区。

Figure 10. Intelligent fashion generation system based on Gradio

10. 基于Gradio的智能服饰生成系统

在参数调整区,用户通过直观的操作界面进行服饰风格的自定义设定。左侧的参数调整界面提供了多种互动控件,包括用于初始化的基础服饰种子选择器、服饰局部特征如袖口样式和大小的滑块、以及控制服饰明暗度等整体风格特征的选项。此外,为了方便用户进行操作,界面布局了提交(Submit)和清除(Clear)按钮,用于确认风格参数的选择或重置所有已调整的设定。

风格生成展示区位于界面的右侧,展示了用户选择的种子服饰图像以及根据用户设定的参数智能生成的服饰风格图像。用户通过调整左侧的风格参数,并输入所期望的服饰局部和整体特征,点击“提交(Submit)”按钮后,系统便在右侧动态展示相应的生成图像。如果用户需要重新设定风格参数,可点击“清除(Clear)”按钮,以清空所有已输入的参数。

6. 总结和展望

本文构建了一个基于Style GAN的服饰风格生成系统,其核心流程涵盖了从数据集准备到风格特征提取,再到最终的服饰风格生成。首先,采用网络爬虫技术手动收集了广泛的服饰图像,涵盖多种风格和时尚趋势,并对这些图像进行了去噪和归一化处理,以确保数据的一致性和质量。随后,将处理过的图像数据输入到预训练的Style GAN模型中,通过反向传播算法和梯度下降技术进行参数微调,目的是缩小生成图像与目标风格之间的差异。完成模型训练后,通过在潜在空间进行主成分分析,识别并提取了决定服饰风格的关键语义特征。利用这些特征向量,系统能够在服饰设计的多个维度上实现精确的风格调整,如变更图案明暗、调整整体轮廓以及修改颜色的饱和度和亮度。最终,通过映射调整后的潜向量到图像空间,系统成功生成了多种风格的服饰图像,表明了所提出方法在服饰风格自动生成领域的有效性和应用潜力。

未来的工作将探索进一步优化生成模型结构和算法,以提升设计的准确性和效率,并考虑将该系统扩展应用至更广泛的设计领域,如家居装饰和日用品,这将有助于实现消费者个性化需求和推动时尚产业的创新发展。

基金项目

受《浙江省大学生科技创新活动计划(新苗人才计划)》资助、受国家级大学生创新创业训练项目(项目编号:202313275002)资助。

参考文献

[1] 刘锐, 彭敦陆. 一种服饰风格特征指导下的服装搭配学习模型[J]. 小型微型计算机系统, 2022, 43(7): 1378-1382.
[2] 杜斐. 生成对抗网络在服饰风格迁移中的应用[D]: [硕士学位论文]. 昆明: 云南师范大学, 2021.
[3] 赵玉. 基于生成式对抗网络的服饰产品设计[D]: [硕士学位论文]. 大连: 大连交通大学, 2020.
[4] 王青虎. 基于生成对抗网络的时装图像属性编辑[D]: [硕士学位论文]. 南京: 南京理工大学, 2024.
[5] Karras, T., Laine, S. and Aila, T. (2021) A Style-Based Generator Architecture for Generative Adversarial Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 4217-4228.
https://doi.org/10.1109/TPAMI.2020.2970919
[6] Härkönen, E., Hertzmann, A., Lehtinen, J., et al. (2020) GAN Space: Discovering Interpretable GAN Controls. Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS’20), New York, 6-12 December 2020, 9841-9850.