摘要
为了解决现有虚拟试衣方法不能适用于学位服的问题,提出一种面向学位服照片生成的虚拟试衣方法。该方法首先对由服装变形模块和虚拟试穿模块构成的基于图像的虚拟试衣网络进行训练,将人像与学位服图像通过训练后的网络生成试衣结果。随后,将生成的学位服试衣结果通过背景融合模块与特定背景进行合成。实验过程中,本文构建了一个新的学位服与长裙的数据集。从实验结果来看,本文提出的算法能够在很大程度上减少原人像中衣服对学位服试穿的影响,能够较好地完成学位服的试穿工作并生成较为理想的试穿结果。
面向学位服照片生成的虚拟试衣方法旨在根据用户给定的人像以及所选的学位服种类生成对应穿着学位服的人像图片。该方法可以使学生足不出户拍摄学位毕业照,减少疫情期间学生的大规模聚集,也可以帮助不在校的学生远程拍摄学位毕业照,并且可以使毕业照更加多样化。
目前最主流的虚拟试衣方法主要分为两种:一种是基于物理仿真的三维虚拟试衣技术;另一种是基于图像生成的二维虚拟试衣技术。早期研究中,与虚拟试衣相关的工作主要采用三维测量和构建三维服装模型的方法。Guan
但是,上述方法都不太适合直接进行学位服的虚拟试衣工作,因为在之前提出的虚拟试衣技术中,大多是针对短袖、衬衫等服装,尚未有工作针对学位服这类服装的试穿进行研究。在试穿短袖这类服装时,试穿结果仅会受到人体上半身的影响。而在学位服的试穿中,不仅是人体上半身,下半身的形体及姿势也会对试穿结果造成影响。除此之外,学位服作为宽松型的裙装,在试衣时要求将人的上半身与下半身作为一个整体,因此上半身与下半身之间的姿势动作等均会相互影响,例如当人张开双臂时学位服的下摆也会随之变得相对宽大。同时,人体的腰部、胯部等作为人体上半身与下半身的连接处,其特征也会对试衣结果造成一定影响。但是,学位服宽松的特性也要求其在试穿时并不需要紧紧贴合人体的轮廓,这就使得不同体型人的试衣结果差距不会太大,并且一些不明显的人体姿势及形体特征并不会对试衣结果产生影响。另一方面,上述方法所采用的虚拟试衣数据集与学位服相差甚远,不能用于训练学位服的虚拟试衣网络。
为了解决上述问题,本文提出面向学位服照片生成的虚拟试衣方法,并取得较为理想的效果。本文的主要工作和创新点如下:
(1)分析了学位服等长裙类衣物数据,根据学位服的连体性等特点以及人物穿着学位服后的特点,有效提取了穿着学位服人物的人体特征,并设计了由服装变形模块和虚拟试穿模块构成的虚拟试衣网络,进行学位服虚拟试衣任务。
(2)在虚拟试衣的任务基础上,增加了背景融合模块,有助于生成更真实的毕业场景照片。
(3)首次收集并提出了学位服虚拟试衣数据集,该数据集弥补了虚拟试衣研究中长裙类数据集的空白,有助于推动相关工作的研究和发展。
近年来,随着信息技术的发展和计算机运算能力的提高,深度学习方法和深度学习模型在各个领域取得了越来越好的应用效
上述方法都是针对目标衣物进行相应的变形并采用一定方法将变形后的衣物与人体相拟合达到试衣效果。除此之外,Wu
受第1节相关工作的启发,根据学位服的特点,本文提出一种面向学位服照片生成的虚拟试衣方法,如

图1 面向学位服照片生成的虚拟试衣方法
Fig.1 Virtual try‑on method for generation of graduation photo
在进行训练时,采用构建训练三元组对网络进行训练可以达到较好的效果,其中为中人物穿着学位服的图像,即目标生成图像的真实图像。但是,由于训练任务要求图像与中除人物穿着的衣服不同以外,图片中的其他信息,例如人体姿势与人物特征等均需相同,这就使得获取这样一对训练三元组几乎不可能。而VITON网

图2 面向学位服照片生成的虚拟试衣方法的整体框架
Fig.2 Overall framework of virtual try‑on network for graduation photo generation
实现虚拟试衣任务目标必不可少的一个环节是提取原始图像中的人物特征。借助人物特征表示中的一些人体特征,才能使目标衣物准确地覆盖在人体相应部位的同时保持原图像中其他人体特征。由于在进行学位服虚拟试穿时相应的信息也需要得到保留,而VITON网
人体姿势是人物特征表示中的一个重要组成部分,也是决定着衣服变形状态与变形程度的一个重要因素。Cao
本文使用Liang
身份信息指人的面部及头发部位等信息,也是在虚拟试衣任务中需要保留下来的关键信息,往往需要通过对人体进行解析后获取。本文同样采用JPPNet模

图3 与服装无关的人体特征表示
Fig.3 Clothing‑free person representation
本文的虚拟试穿网络由服装变形模块与虚拟试穿模块组成。
服装变形模块以与服装无关的人物特征表示以及变形前的学位服图像作为输入,输出变形后的学位服图像。若以表示服装变形模块,其功能即可表示为。在服装变形模块中,首先将人物特征表示与学位服图像分别通过2个用于提取高级特征的网络,将提取到的2个高级特征通过1个相关层组合成为1个张量。随后,将该张量通过一个回归网络,计算空间变换参数。最后,根据人物特征表示,利用一个参数为的具有形状上下文匹
(1) |
在进行训练时,服装变形模块通过最小化损失函数来学习如何将目标衣物转移到目标人物的对应部位并对其逐渐优化,从而生成更理想的输出。
虚拟试穿模块旨在将变形后的学位服与目标人像进行融合,生成最终的试穿结果。在虚拟试穿模块中,首先以与服装无关的人物特征表示与在服装变形模块中生成的变形后的学位服作为输入,依次经过下采样层与上采样层构成的U‑Net,在生成渲染人像的同时生成学位服合成图的掩膜,随后将与通过掩膜合成生成最终的试穿结果,表达式为
(2) |
虚拟试穿模块的损失函数由损失和VGG(Visual geometry group)感知损
(3) |
式中:表示 范数的权重;表示VGG感知损失范数的权重。式中的第1项代表试穿结果与真实图像之间的损失;第2项代表试穿结果与真实图像之间的感知损失。通过范数和VGG感知损失范数可以使得生成的结果利用更多变形后的学位服中的信息并且使其更加平滑,从而使得生成的结果能够保留更多衣服上的细节纹理,并且使试穿结果看起来更加逼真自然。
经过上述虚拟试穿网络得到试穿的人像结果后,本文将其通过一个背景融合模块使其能够自由地与所需的背景进行拼接。如

图4 背景融合目标
Fig.4 Goal of background fusion
如

图5 背景融合整体框架
Fig.5 Background fusion overall framework
本文构建了一个新的学位服照片数据集(https://github.com/jr011/-dataset),数据集信息如
本文在训练中使用Adam优化
在第1阶段服装变形模块中,特征提取网络包含4个二步下采样卷积层以及2个一步卷积层,其滤波器的数量分别为64、128、256、512、512、512。而回归网络包含2个二步卷积层、2个一步卷积层以及1个全连接输出层,其滤波器数量分别为512、256、128、64。第2阶段的虚拟试穿模块中,在U‑Net中包含6个二步下采样卷积层和6个上采样卷积层,下采样卷积层的滤波器数量分别为64、128、256、512、512、512,上采样卷积层滤波器数量分别为512、512、256、128、64、4。在每个卷积层之后是实例归一化

图6 服装变形模块训练结果
Fig.6 Training results of clothing deformation module

图7 虚拟试穿模块训练结果
Fig.7 Training results of virtual try‑on module

图8 虚拟试衣结果
Fig.8 Virtual try‑on results
将输出的虚拟试衣合成人像通过背景合成网络与背景进行合成,结果如

图9 背景融合结果
Fig.9 Background fusion results
除可视化结果外,本文还对生成的虚拟试衣结果进行了定量分析。在虚拟试衣工作中,定量评价指标主要有起始分数(Inception score, IS

图10 失败情况
Fig.10 Failure cases
本文提出了一种面向学位服照片生成的虚拟试衣方法,用于根据用户所提供的人物图像以及选择的目标学位服来合成虚拟试穿图像,并将虚拟试穿图像与特定的背景进行融合,生成逼真的毕业场景照片。文中针对学位服的特性,设计了面向学位服等长裙类衣物的虚拟试衣方法,并且构建了一个学位服虚拟试衣数据集。实验结果表明,本文方法能够在完成虚拟试穿任务时较好地保留原始图片中人物的姿势、形体特征及身份特征,从而将目标学位服很好地与人物图像相融合,并且保留衣服上的细节纹理。同时也能在保持人物特征及服装的情况下将生成的虚拟试衣图像与背景自然融合,有助于毕业生在线进行毕业照生成。
参考文献
GUAN Peng, REISS L, HIRSHBERG D A, et al. DRAPE: Dressing any person[J]. ACM Transaction of Graph, 2012, 31(4): 1-10. [百度学术]
HAHN F, THOMASZEWSKI B, COROS S, et al. Gross: Subspace clothing simulation using adaptive bases[J]. ACM Transaction of Graph, 2014, 33(4): 1-9. [百度学术]
JETCHEV N, BERGMANN U. The conditional analogy GAN: Swapping fashion articles on people images[C]//Proceedings of 2017 IEEE International Conference on Computer Vision Workshops. Los Alamitos, CA, USA: IEEE, 2017: 2287-2292. [百度学术]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. [百度学术]
HAN Xintong, WU Zuxuan, WU Zhe, et al. Viton: An image-based virtual try-on network[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE Computer Society, 2018: 7543-7552. [百度学术]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522. [百度学术]
WANG Bochao, ZHENG Huabin, LIANG Xiaodan, et al. Toward characteristic-preserving image-based virtual try-on network[C]//Proceedings of 2018 European Conference on Computer Vision. Munich, Germany: Springer, 2018: 589-604. [百度学术]
ROCCO I, ARANDJELOVIC R, SIVIC J. Convolutional neural network architecture for geometric matching[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2017: 6148-6157. [百度学术]
SONG Dan, LI Tianbao, MAO Zhendong, et al. SP-VITON: Shape-preserving image-based virtual try-on network[J]. Multimedia Tools and Applications, 2020, 79(45): 33757-33769. [百度学术]
GULER R A, NEVEROVA N, KOKKINOS I. Densepose: Dense human pose estimation in the wild[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE Computer Society, 2018: 7297-7306. [百度学术]
HAO Tong, YU Ailing, PENG Wei, et al. Cross domain mitotic cell recognition[J]. Neurocomputing, 2016, 195: 6-12. [百度学术]
ZHU Shizhan, URTASUN R, FIDLER S, et al. Be your own prada: Fashion synthesis with structural coherence[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Los Alamitos, CA, USA: IEEE, 2017: 1680-1688. [百度学术]
LONG J, SHELHAMER E, DARRRLL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE Computer Society, 2015: 3431-3440. [百度学术]
DONG Haoye, LIANG Xiaodan, SHEN Xiaohui, et al. Towards multi-pose guided virtual try-on network[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Los Alamitos, CA, USA: IEEE Computer Society, 2019: 9026-9035. [百度学术]
WU Zhonghua, LIN Guosheng, TAO Qingyi, et al. M2e-try on net: Fashion from model to everyone[C]//Proceedings of the 27th ACM International Conference on Multimedia. New York, the United States: Association for Computing Machinery, 2019: 293-301. [百度学术]
YOO D, KIM N, PARK S, et al. Pixel-level domain transfer[C]//Proceedings of 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 517-532. [百度学术]
NEVEROVA N, GULER R A, KOKKINOS I. Dense pose transfer[C]//Proceedings of 2018 European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 123-138. [百度学术]
DONG Haoye, LIANG Xiaodan, GONG Ke, et al. Soft-gated warping-GAN for pose-guided person image synthesis[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2018: 472-482. [百度学术]
DONG Haoye, LIANG Xiaodan, SHEN Xiaohui, et al. FW-GAN: Flow-navigated warping GAN for video virtual try-on[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Los Alamitos, CA, USA: IEEE Computer Society, 2019: 1161-1170. [百度学术]
CAO Zhe, SIMON T, WEI Shien, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2017: 7291-7299. [百度学术]
LIANG Xiaodan, GONG Ke, SHEN Xiaohui, et al. Look into person: Joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(4): 871-885. [百度学术]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522. [百度学术]
JOHNSON J, ALAHI A, LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 694-711. [百度学术]
DIEDERIK P, KINGM A, JIMMY B. Adam: A method for stochastic optimization[C]//Proceedings of 2015 International Conference on Learning Representations. San Diego, CA, USA: OpenReview.net, 2015: 13. [百度学术]
ULYANOV D, VEDALDI A, LEMPITSKY V. Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE, 2017: 6924-6932. [百度学术]
MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models[C]//Proceedings of 2013 International Conference on Machine Learning. Atlanta, GA, USA: JMLR.org, 2013: 3. [百度学术]
SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. Advances in Neural Information Processing Systems, 2016. DOI: 10.48550/arXiv.1606.03498. [百度学术]
WANG Zhou, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [百度学术]