摘要
随着动漫产业的快速发展,动漫人脸的生成成为一项关键技术。由于动漫人脸具有的高度简化和抽象的独特风格以及倾向于具有清晰的边缘、平滑的阴影和相对简单的纹理,现有方法中的损失函数面临很大的挑战,同时绘画的风格迁移技术无法获得满意的动漫结果。因此,本文提出了一种新颖的适用于动漫图像的损失函数,该函数的语义损失表示为VGG网络高级特征图中的正则化形式,以应对真实图像和动漫图像之间不同的风格,具有的边缘增强的边缘清晰损失可以保留动漫图像的边缘清晰度。4个公开数据集上的实验表明:通过本文提出的损失函数可以生成清晰生动的动漫人脸图像;在CK+数据集中,本文方法相比于现有的方法识别率提高了0.43%(宫崎骏风格)和3.29%(新海诚风格);在RAF数据集中,本文方法识别率提高了0.85%(宫崎骏风格)和2.42%(新海诚风格);在SFEW数据集中,本文方法识别率提高了0.71%(宫崎骏风格)和3.14%(新海诚风格);在Celeba数据集中也显示了本文方法优异的生成效果。实验结果说明本文方法结合了深度学习模型的优点,使检测结果更加准确。
人类的很多情感大多数借助于面部进行传递,随着深度学习和人机交互的发展,从人脸图像中了解人的情感变得越来越重要。为了实现更加精准的人脸表情识别,研究人员已经进行了大量的研究,但是目前的人脸表情识别方法大多是对真实人脸图像进行识别,如果将这些模型应用到动漫人物的面部表情识别当中则很难有好的效果。风格迁移是解决此类问题的常用技术,传统方法是为特定的风格开发专用算法,但需要付出巨大的努力才能产生细腻的特定风格。近年来生成对抗网
因此,本文提出了基于生成对抗网络的有效的损失函数。在生成器网络中,为了应对图像和动漫之间的风格变化,在VGG网络的高级特征图中引入语义损失,定义为L1稀疏正则化。同时本文提出具有边缘增强的边缘清晰损失,可以保留动漫图像的边缘清晰度,生成具有清晰边缘的动漫图像。最后将风格迁移应用到人脸生成当中,可以增加对动漫人物表情识别的精度,并且在CK+、SFEW、Celeba和RAF公开数据集的实验中也有很好的效果。
本文提出的方法主要涉及人脸表情识别、生成对抗网络以及风格迁移技术,因此本节主要讨论这3个方面的研究工作。
生成对抗网络是2014年由Goodfellow等提出来的一种生成模
人脸的面部表情是人类传达感情的重要方式,随着人脸处理技术的不断完善,利用计算机进行人脸表情分析成为了可能。深度学习的不断发展促进了人脸表情识别技术的快速进步,例如,叶继华
现有很多算法可以用来模仿动漫的艺术风格,其中一些算法用简单的阴影渲染生成类似于动漫的效果,这种着色技术可以为艺术家节省大量的时间,并已用于创建游戏以及视频和电影。Kotovenko
图像到图像的转换问题通常被表示为按像素分类或回归,这个想法可以追溯到Image analogie
本文设计生成器和鉴别器网络以适应动漫图像的特殊性。设计的学习过程将实现真实人脸图像转换成动漫图像,作为映射功能将真实图像域映射到动漫域。通过训练数据和来学习映射函数,其中和为训练数据集中真实图像和动漫图像的数量,和其他的生成对抗网络框架一样,训练判别器D通过将动漫域与真实图像域区分开并且为生成器G提供对抗损失来推动生成器,使其可以达到生成动漫人脸的目的。令为损失函数,和为生成器G和判别器D的网络权重,c为动漫图像,r为真实图像。本文的目的是解决最小⁃最大问题,即
(1) |
本文的网络架构如

图1 生成对抗网络框架
Fig.1 Generative adversarial net framework
损失函数在
(2) |
式中:平衡两个损失函数,分别表示生成器和判别器。越大将保留更多来自输入图像的语义信息,因此具有更详细纹理的风格化图像。其中生成对抗损失由对抗损失和边缘清晰损失组成,语义损失由VGG损失组成。在实验中设置=10使风格和语义之间达到良好的平衡,不同的生成效果如

图2 不同的生成效果
Fig.2 Generation effects of different
对抗损失同时应用到生成器网络G和判别器网络D,这会影响生成器网络G动漫风格化的过程。对抗损失的值是生成器网络G的输出图像在多大程度看起来像动漫图像。
(3) |
式中:表示动漫域,表示动漫图像;表示真实图像域,表示真实图像。对于真实图像域中的每个图像,生成器网络输出的图像为,判别器网络的目标是最大程度将判定为正确的可能性。通过将输入图像输入到生成器当中,生成器生成的动漫化图像与真实图像放到判别器当中,判别器判定的参数传递到生成器,优化生成器的生成过程使其可以生成目标的动漫风格。但是在动漫化的过程中,需要使动漫图像具有清晰的边缘。
在以前的生成对抗网络框架中,判别器网络D的任务是区分输入图像是来自生成器生成的图像还是真实的图像。但是对于本研究来说,仅仅训练判别器网络D区分生成图像和真实的动漫图像不足以将真实图像风格化为动漫图像,这是因为清晰的边缘呈现是动漫图像的重要特征,但是这些边缘通常在整个图像中比例很小。因此,没有重现清晰的边缘但是有正确纹理的输出图像会使判别器受到标准对抗损失的影响。为了解决这个问题,本文从训练的动漫图像中,通过删除中的清晰边缘,自动生成一组图像,其中和分别为动漫域和没有清晰边缘的动漫域。对于每个动漫图像,使用标准Canny边缘检测
(4) |
从

图3 有无边缘清晰损失的生成动漫图像(宫崎骏风格)
Fig.3 Generate animation images with and without loss of edge sharpness (Miyazaki Hayao style)

图4 有无边缘清晰损失的生成动漫图像(新海诚风格)
Fig.4 Generate animation images with and without loss of sharp edges (Makoto Shinkai style)
(5) |
判别器可以通过将输入转换为正确域来引导生成器网络G。在生成具有清晰边缘的动漫图像时,需要保证图像的语义特征不能改变。
除了在正确域之间进行风格迁移,动漫风格化中的另一个重要目标是确保生成的动漫图像保留输入图像的语义内容。本文将语义损失定义为
(6) |
式中:为特定层的特征图,表示真实图像。本文使用真实图像和生成的动漫图像之间特征图的稀疏正则化来定义语义损失。

图5 无语义损失生成的图像
Fig.5 Generated images without semantic loss
由于生成对抗网络模型具有非线性的具有随机初始化的功能,因此可以很容易地在次优局部最小值捕获优化。为了提高收敛性,本文开始一个新的初始化,生成器网络的目标是保留语义内容的同时用动漫风格重构输入图像。模型从生成器网络开始对抗学习,生成器仅重建输入图像的语义内容。本文使用语义损失来训练生成器网络。实验结果表明,初始化可以帮助本文模型快速收敛而不会过早收敛。文献[
本文根据
实验中为了获得一组具有相同样式的动漫图像,本文使用由同一位艺术家绘制和导演的动漫电影的关键帧作为训练数据,在实验中使用3 617张“千与千寻”的卡通图片训练宫崎骏的模型,使用4 573张“你的名字”的卡通图片来训练新海诚的模型。验证集使用3 011张动画图像来验证本文实验结果,本文模型(宫崎骏/新海诚)的测试集使用的是经过模型风格迁移后的图像。
从

图6 本文模型(新海诚风格)在CK+数据集中的表情识别结果混淆矩阵
Fig.6 Confusion matrix of facial expression recognition results of CK+ dataset by the proposed model (Makoto Shinkai style)

图7 本文模型(新海诚风格)在RAF数据集中的表情识别结果混淆矩阵
Fig.7 Confusion matrix of facial expression recognition results of RAF dataset by the proposed model (Makoto Shinkai style)

图8 本文模型(新海诚风格)在SFEW数据集中的表情识别结果混淆矩阵
Fig.8 Confusion matrix of facial expression recognition results of SFEW dataset by the proposed model (Makoto Shinkai style)
为了验证本文模型在图像风格迁移方面的效果,本文在Celeba数据集中选取老人、成人和佩戴眼镜的人的人脸图像的生成效果,其中每种选择生成了宫崎骏风格和新海诚风格的动漫人脸图像,使用CycleGAN训练生成新海诚风格的图像。

图9 风格图像与真实动漫域图像
Fig.9 Style images and real anime domain images

图10 Celeba数据集中生成的老人图像效果
Fig.10 Generated effect of elderly images in the Celeba dataset

图11 Celeba数据集中生成的成年人图像效果
Fig.11 Generated effect of adult images in the Celeba dataset

图12 RAF数据集中生成的小孩图像效果
Fig.12 Generated effect of child images in the RAF dataset
本文提出了一种基于生成对抗网络以及风格迁移的人脸生成方法,在生成对抗网络中将真实人脸进行风格迁移生成动漫风格的人脸,然后通过卷积神经网络对不同表情的动漫人脸进行表情识别。在4个公开的数据集上的实验表明,本文模型可以提升动漫人脸表情识别率,并且具有很好的生成动漫人脸的效果。
在未来的工作中,作者将考虑结合动漫人物身体各个部位的姿态提高表情识别精度,然后通过对动漫人脸的表情识别生成具有目标表情的动漫人脸,可以进一步推动人工智能技术自动生成视频动漫,为动漫产业节约成本。
参考文献
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the Conference and Workshop on Advances in Neural Information Processing Systems. [S.l.]: ACM, 2014: 2672-2680. [百度学术]
ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 17453078. [百度学术]
RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL]. (2015-11-19)[2020-12-20]. http:// arxiv.org/1511.06434.pdf. [百度学术]
ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[EB/OL]. (2017-01-27)[2020-12-20]. http://arxiv.org/abs/1701.07875.pdf. [百度学术]
GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]//Proceedings of the International Conference on Neural Information Processing Systems.[S.l.]: [s.n.], 2017: 5767-5777. [百度学术]
叶继华,祝锦泰,江爱文,等. 人脸表情识别综述[J]. 数据采集与处理,2020,35(1): 21-34. [百度学术]
YE Jihua, ZHU Jintai, JIANG Aiwen ,et al. Facial expression recognition: A survey[J]. Journal of Data Acquisition and Processing, 2020, 35(1): 21-34. [百度学术]
VEMULAPALLI R, AGARWALA A. A compact embedding for facial expression similarity[C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 5676-5685. [百度学术]
LI Y, ZENG J, SHAN S, et al. Self-supervised representation learning from videos for facial action unit detection[C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 10916-10925. [百度学术]
KOTOVENKO D, SANAKOYEU A, MA P, et al. A content transformation block for image style transfer[C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 10024-10033. [百度学术]
ZHU Z, HUANG T, SHI B, et al. Progressive pose attention transfer for person image generation[C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 2342-2351. [百度学术]
CHO W, CHOI S, PARK D K, et al. Image-to-image translation via group-wise deep whitening-and-coloring transformation[C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 10631-10639. [百度学术]
LIN Y, WU P, CHANG C, et al. RelGAN: Multi-domain image-to-image translation via relative attributes[C]// Proceedings of IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019: 5913-5921. [百度学术]
HERTZMANN A, JACOBS C E, OLIVER N, et al. Image analogies[C]//Proceeding of ACM SIGGRAPH. Los Angeles: ACM, 2001: 327-340. [百度学术]
EFROS A A, LEUNG T K. Texture synthesis by non-parametric sampling[C]// Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999: 1033-1038. [百度学术]
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA: IEEE, 2015: 3431-3440. [百度学术]
AYTAR Y, CASTREJON L, VONDRICK C, et al. Cross-modal scene networks[C]// Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence. [S,l.]: IEEE, 2016: 2303-2314. [百度学术]
LI Shan, DENG Weihong, DU JunPing. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 2584-2593. [百度学术]
JHA A H, ANAND S, SINGH M, et al. Disentangling factors of variation with cycle-consistent variation auto-encoders[C]// Proceedings of European Conference on Computer Vision (ECCV). Cham, Switzerland: Springer, 2018: 829-845. [百度学术]
ROMERO A, ARBELÁEZ P, VAN GOOL L , et al. SMIT: Stochastic multi-label image-to-image translation[C]// Proceedings of IEEE/CVF International Conference on Computer Vision Workshop. Seoul, South Korea: IEEE, 2019: 3285-3294. [百度学术]
BOUSMALIS K, SILBERMAN N, DOHAN D, et al. Unsupervised pixel-level domain adaptation with generative adversarial networks[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 95-104. [百度学术]
TAIGMAN Y, POLYAK A, WOLF L. Unsupervised cross-domain image generation[EB/OL]. (2017-02-10)[2020-12-20].https://arxiv.org/abs/1611.02200.pdf. [百度学术]
YE Z, LYU F, LI L, et al. SR-GAN: Semantic rectifying generative adversarial network for zero-shot learning[C]// Proceedings of IEEE International Conference on Multimedia and Expo (ICME). Shanghai, China: IEEE, 2019: 85-90. [百度学术]
CANNY J. A computational approach to edge detection[C]// Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence. [S.l.]: IEEE, 1986: 679-698. [百度学术]
GATYS L, ECKER A, BETHGE M. Image style transfer using convolutional neural networks[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 2414-2423. [百度学术]
LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA: IEEE, 2010: 94-101. [百度学术]
MA Liqian, XU Jia, STAMATIOS G, et al. Exemplar guided unsupervised image-to-image translation with semantic consistency[C]// Proceedings of International Conference on Learning Representations (ICLR). New Orleans, LA, USA: ICLR, 2019: 882-895. [百度学术]
DHALL A, GOECKE R, LUCEY S, et al. Static facial expression analysis in tough conditions: Data, evaluation protocol and benchmark[C]//Proceedings of 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). Barcelona: IEEE, 2011: 2106-2112. [百度学术]
张飞飞,张天柱,毛启容,等. 基于生成对抗网络的多姿态人脸表情识别[EB/OL]. (2019-12-05)[2020-12-20]. http://kns.cnki.net/kcms/detail/11.1826.TP.20191205.1151.002.html. [百度学术]
ZHANG Feifei, ZHANG Tianzhu, MAO Qirong, et al. Multi-pose facial expression recognition based on generative confrontation network[EB/OL]. (2019-12-05)[2020-12-20]. http://kns.cnki.net/kcms/detail/11.1826.TP.20191205.1151.002.html. [百度学术]