摘要
如何提取多尺度特征和建模远程通道间的语义依赖仍是表情识别网络面临的挑战。本文提出一种基于金字塔分割注意力的残差网络(Residual network based on pyramid split attention, PSA‑ResNet)模型,该模型将ResNet50残差模块中的3×3卷积替换成金字塔分割注意力,以有效提取多尺度特征,增强跨通道语义信息的相关性。同时,为缩小同类表情之间的差异,扩大不同类表情之间的距离,在训练过程中引入了Softmax loss和Center loss联合损失函数优化模型参数。本文所提出的方法在Fer2013和CK+两个公开的数据集上进行仿真实验,分别取得了74.26%和98.35%的准确率,进一步证实了该方法相比前沿算法具有更好的表情识别效果。
人脸表情蕴含着十分丰富的情感信息,面部表情的变化反映人际交往中心理情绪的波动情况,据统计,日常交流中55%的信息通过面部表情传
在传统的表情识别方法中,首先利用手工设计的特殊算子提取特征,然后将特征向量送入诸如支持向量机、K临近算法之类的分类器中输出识别结果。常见的特征提取算法有提取纹理特征的局部二值模式算
随着深度学习的发展,卷积神经网络在计算机视觉领域得到了广泛应用。不同于传统的特征提取算法,卷积神经网络通过多层卷积和非线性变换,自动提取图像的深层语义信息。在表情识别领域,程学军
为表征有效的特征信息,一些研究者将注意力引入到表情识别中,以增强对关键特征的提取能力。Li
(1) 引入金字塔分割注意力模
(2) 用PSA替换ResNet50网络残差模块中的3×3卷积,形成基于金字塔分割注意力的残差网络(Residual network based on PSA, PSA‑ResNet)模型,将不同尺度的特征信息整合到每个通道的特征图上,使用通道注意力增强跨通道语义信息的相关性,产生更好的像素级注意力,提升模型识别的准确度。
(3) 为缩小同类表情之间的距离,降低模型误判的概率,使用Softmax loss和Center loss联合损失函数训练网络,并在Fer2013与CK+两个数据集上进行大量实验,证明了本文方法的有效性。
为提高多尺度关键特征的跨通道表征能力,捕捉不同表情间的细微变化,本文提出一种基于金字塔分割注意力的残差网络模型,对各种人脸表情进行识别,该模型的体系结构如
图1 PSA-ResNet网络结构
Fig.1 PSA-ResNet architecture
首先基于ImageNet数据集预训练ResNet50模型,得到网络初始权重参数;然后将其迁移到PSA‑ResNet模型上,学习丰富的多尺度特征,将不同尺度的信息整合到通道级特征图上,重新校准多尺度特征跨通道注意力权重,增加人脸表情变化显著性区域的权重;最后在训练过程中采用Softmax loss和Center loss联合损失函数进行参数优化,降低表情识别误判的概率,提高模型识别的准确性。
为了提取高层语义信息,卷积神经网络的层数越来越多,从8层的AlexNe
ResNet50的layer2、layer3、layer4、layer5分别包含3、4、6、3个残差块,ResNet残差块结构如
图2 ResNet和PSA残差块
Fig.2 ResNet and PSA residual blocks
注意力机制可以让神经网络对不同部分的数据,赋予不同的权重,从而选择对当前任务最关键的信息。为建立高效的注意力机制,本文引入PSA模块,该模块通过多尺度金字塔卷积结构和通道注意力机制增强多尺度特征和跨通道语义信息的相关性,捕获不同层次和不同粒度的表情信息,提升表情预测的精度。
PSA模块结构如
图3 PSA 模块结构
Fig.3 PSA module structure
SPC模块计算过程如
图4 分割融合模块计算过程
Fig.4 Calculation process of SPC
首先将输入的特征图从通道上拆分为S(本模型取S=4)个部分,表示为,每个部分的通道数量满足,分别使用不同大小的卷积核,每部分卷积核大小满足
(1) |
卷积核尺寸的增加会引起计算量的迅速增大,本文在SPC模块中对分割的每部分的特征应用分组卷积,有效地避免了此类问题,分组数量与卷积核的大小满足如下关系
(2) |
因此,多尺度特征图的生成函数可以表示为
(3) |
最后,在通道方向上拼接多尺度特征,得到一个叠加的多通道特征,拼接函数为
(4) |
通道注意力机制能重点关注重要的特征通道,并抑制无意义的特征通道,达到提升网络性能的目的。SE模块结构如
图5 SE模块结构
Fig.5 SE module structure
首先使用全局平均池化对输入特征图的通道维度进行压缩,得到一个全局特征图,其维度为。若第个通道的输入为,则全局平均池化的计算公式为
(5) |
然后利用全连接层和激励函数计算不同通道之间相互关系,获得注意力权重。第个通道的注意力权重可以表示为
(6) |
式中:和分别代表ReLU和sigmoid激活函数的操作,两个全连接层权重分别用和表示。全连接层通过将输入数据与权重矩阵进行线性组合,并通过激活函数引入非线性变换,更加有效地建模远程通道间的语义依赖。
最后使用Softmax函数将注意力权重向量归一化,与多尺度特征提取模块的输出进行加权融合,从而更好地表达图像的特征。
Softmax loss损失函数虽然保证了不同类别清晰可分,但是没有考虑类别内部的差异性。在表情识别任务中,不同的人做同一个表情的差异可能比一个人做不同的表情差别大得多,若仅仅使用Softmax loss可能导致表情的误判,进而影响模型对表情的正确识别。为了获得更好的表情分类效果,在损失函数设计上需要考虑如何缩小同类表情的距离、扩大不同类别表情间的距离。
因此本文引入Softmax loss和Center loss联合损失函数。Center loss缩小类内距离的能力较强,使得同类表情的数据表现得更加紧凑,有利于提高分类效果,本文将其引入到网络模型中,计算过程为
(7) |
式中:表示数据集中样本个数,表示输入的第i个表情特征,表示该类表情所有样本的中心。每个样本特征距该类样本中心距离的平方和越小,类内差距就越小。PSA‑ResNet模型联合损失函数可表示为
(8) |
式中:表示Softmax loss损失函数,为权重参数,用于调节Center loss在联合损失函数中的比重。
为有效地对本文提出的模型进行评估,分别在Fer2013和CK+两个数据集上进行训练和测试,并与当前主流的方法进行对比实验。
(1) Fer2013数据集:该数据集是由35 886张分辨率为48像素×48像素的灰度表情图组成,其中训练集28 708张,验证集和测试集各3 589张。每张图片均被打上标签类别,共包含7类表情,分别对应数字0~6,具体对应标签的中英文如下:0 生气(Anger)、1厌恶(Disgust)、2恐惧(Fear)、3开心(Happy)、4伤心(Sad)、5惊讶(Surprise)、6中性(Normal)。在训练集中出现次数最多的图片是高兴,高达7 215幅,而厌恶表情图片仅仅有436幅,这种不均匀的数据分布以及一些标签噪声和非人脸区域的图片会影响模型的训练效率和准确性,本文对其进行如下处理:(a)对厌恶表情图片进行仿射变换、随机翻转、旋转等数据增强操作,扩充该类图片数量,以平衡数据分布;(b)对部分错误标签图像进行删除;针对(a)和(b)处理后的数据,重新执行(a)中的操作进行数据增强,数据增强前后训练集分布如
图6 Fer2013数据增强前后的分布
Fig.6 Fer2013 distributions before and after augmentation
(2) CK+数据集:CK+数据集是CK数据集的扩展,该数据集共包含了123个对象的327个标记好的面部表情序列。本文从每个序列中随机提取4帧,组成1 308幅带标签的表情图片作为训练集。为了提高模型的泛化能力和鲁棒性,同样对数据集实施了一系列的增强操作,包括随机旋转、翻转、亮度调整和颜色调整。将增强后的图片按各类表情2∶1的比例划分训练集和验证集。数据增强之后的训练集分布如
图7 CK+数据增强前后的训练集分布
Fig.7 CK+ distributions before and after data augmentation
本实验使用的软件平台如下:编程语言使用Python3.8版本,采用PyTorch2.0搭建深度学习网络框架,操作系统是64 bit的Microsoft Windows 10;硬件环境的配置是:GPU是i7‑9700K,内存是128 GB,显卡的型号是NVIDIA GTX 2080Ti。
本实验超参数设置如下:训练批次设为200轮,32张图片为一个batch,初始学习率为0.001,采用联合损失函数,并在实验过程中使用Adam优化器优化训练过程。当验证损失函数在第30个批次内没有下降时,则按照10倍的速率降低学习率。
图8 Fer2013数据集上的准确率
Fig.8 Accuracy for Fer2013 dataset
图9 CK+数据集上的准确率
Fig.9 Accuracy for CK+ dataset
为进一步分析各种表情识别的准确率,本文将模型在不同类别表情上得到的识别结果使用混淆矩阵进行可视化分析。由
图10 Fer2013验证集混淆矩阵
Fig.10 Confusion matrix for Fer2013 validation dataset
图11 CK+验证集混淆矩阵
Fig.11 Confusion matrix for CK+ validation dataset
为了评估各个模块的有效性,本文对金字塔分割注意力、联合损失函数进行验证。其中对不添加任何模块的ResNet50网络标记为Base,将各个模块依次加入Base进行对比实验,实验结果如
方法 | 准确率/% | |
---|---|---|
CK+ | Fer2013 | |
Base | 94.80 | 70.92 |
Base+联合损失函数 | 95.43 | 72.37 |
Base+PSA | 97.56 | 73.45 |
Base+ PSA +联合损失函数 | 98.35 | 74.26 |
从
为了验证金字塔分割注意力机制的优越性,把去除PSA模块后的模型标记为ResNet,依次嵌入嵌入通道注意力(Squeeze‑and‑excitation,SE
注意力模型 | 参数量/MB | FLOPs/1 | 准确率/% |
---|---|---|---|
ResNet | 25.56 | 4.11 | 94.80 |
+SE | 28.09 | 4.13 | 96.80 |
+CBAM | 28.10 | 4.14 | 97.03 |
+ECA | 25.56 | 4.13 | 97.82 |
+SA | 25.56 | 4.13 | 98.07 |
+PSA | 22.56 | 3.62 | 98.35 |
为验证本文所选择ResNet50基线模型的特征提取能力,本文在CK+和Fer2013数据集上复现经典深度神经网络模型,实验结果如
模型 | 参数量/MB | 准确率/% | |
---|---|---|---|
CK+ | Fer2013 | ||
VGG1 | 77.23 | 92.18 | 68.33 |
ResNet34 | 21.85 | 93.25 | 69.47 |
ResNet101 | 44.55 | 94.50 | 69.85 |
DenseNet12 | 27.60 | 95.01 | 70.93 |
ResNet50 | 25.56 | 94.80 | 70.92 |
VGG19通过一系列小尺寸的3×3卷积核替换5×5的大尺寸卷积核,有利于细微表情特征的提取,结果达到了人类的识别水平,然而模型参数过多,需要消耗大量的训练时间。ResNet通过两个1×1卷积对通道进行升维和降维,既能保证模型的精度又减少了网络参数,
为了进一步验证PSA‑ResNet的先进性,将本文所提PSA‑ResNet模型与近几年比较先进的面部表情识别模型进行对比,对比结果如
模型 | 参数量/MB | 准确率/% | |
---|---|---|---|
CK+ | Fer2013 | ||
ExpressionNe | — | 95.25 | 70.39 |
Parallel CN | — | 95.50 | 70.56 |
PyCon | 24.72 | 95.31 | 70.21 |
MIANe | — | 96.37 | 71.53 |
APRNE | 31.07 | 97.29 | 72.00 |
VTF | 51.80 | — | 74.08 |
SimFL | 48.89 | — | 74.13 |
TransFE | — | — | 74.21 |
PSA‑ResNet | 22.56 | 98.35 | 74.26 |
Transformer中的自注意力机制可以将特征信息映射到多个空间,增强了模型的感知能力,因此将本文模型与基于Transformer的表情识别模型进行了对比。VTFF将表情图像分割成小块,然后转换成序列输入自注意力模块。SimFLE通过语义掩码和自注意力来重构掩码的面部表情图像,探索信道的丰富语义。TransFER使用多头自注意力机制在不同位置关注不同表情子空间的特征,提升表情识别的效果。在Fer2013数据集上,本文模型与VTFF、SimFLE、TransFER相比,准确度分别提升了0.18%,0.13%和0.05%。
除准确率之外,参数量也是衡量模型性能的重要因素,本文模型与PyConv、APRNET、VTFF、SimFLE相比,参数量分别减少2.16 MB、8.51 MB、28.52 MB和26.33 MB。综上所述,本文所提方法能在保持较少参数量的同时,实现较高的识别率,验证了该模型的先进性。
本文提出了基于金字塔分割注意力和联合损失的表情识别网络,利用SPC实现多尺度特征提取,通过SE增强跨通道之间的信息相关性,提高了表情边缘及远距离预测的精度。为扩大不同种类表情的距离,减少同类表情的距离,在训练中使用Softmax loss和Center loss联合损失函数优化网络模型,进一步提升识别效果。该模型结构简单,训练过程稳定,在训练过程中没有出现欠拟合或过拟合现象,从实验结果可以得出,与前沿算法相比,该模型取得了更好的准确度,然而模型对于某些类别的表情识别的准确度依然不够理想,是下一步需要优化的方向。
参考文献
PANTIC M, ROTHKRANTZ L J M. Expert system for automatic analysis of facial expressions[J]. Image and Vision Computing, 2000, 18(11): 881-905. [百度学术]
LI S, DENG W. Deep facial expression recognition: A survey[J]. IEEE Transactions on Affective Computing, 2022, 13(3): 1195-1215. [百度学术]
OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. [百度学术]
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 3431-3440. [百度学术]
COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape models—Their training and application[J]. Computer Vision and Image Understanding, 1995, 61(1): 38-59. [百度学术]
程学军, 邢萧飞. 利用改进型VGG标签学习的表情识别方法[J]. 计算机工程与设计, 2022, 43(4): 1134-1144. [百度学术]
CHENG Xuejun, XING Xiaofei. Expression recognition method using improved VGG tag learning[J]. Computer Engineering and Design, 2022, 43(4): 1134-1144. [百度学术]
赵晓, 杨晨, 王若男, 等. 基于注意力机制 ResNet轻量网络的面部表情识别[J]. 液晶与显示, 2023, 38(11): 1503-1510. [百度学术]
ZHAO Xiao, YANG Chen, WANG Ruonan, et al. Facial expression recognition based on attention mechanism ResNet lightweight network[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(11): 1503-1510. [百度学术]
关小蕊, 高璐, 宋文博, 等. 深度残差卷积下多视角特征融合的人脸表情识别[J]. 哈尔滨理工大学学报, 2023, 28(2): 117-127. [百度学术]
GUAN Xiaorui, GAO Lu, SONG Wenbo, et al. Facial expression recognition with multi-perspective feature fusion under deep residual convolution[J]. Journal of Harbin University of Science and Technology, 2023, 28(2): 117-127. [百度学术]
MOLLAHOSSEINI A, CHAN D, MAHOOR M H. Going deeper in facial expression recognition using deep neural networks[C]//Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid, USA: IEEE, 2016: 1-10. [百度学术]
ARUL VINAYAKAM RAJASIMMAN M, MANOHARAN R K, SUBRAMANI N, et al. Robust facial expression recognition using an evolutionary algorithm with a deep learning model[J]. Applied Sciences, 2023, 13(1): 468. [百度学术]
LIU K C, HSU C C, WANG W Y, et al. Facial expression recognition using merged convolution neural network[C]// Proceedings of the 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE). Osaka, Japan: IEEE, 2019: 296-298. [百度学术]
LI J, JIN K, ZHOU D. Attention mechanism-based CNN for facial expression recognition[J]. Neurocomputing, 2020(411): 340-350. [百度学术]
YAO L, HE S, SU K, et al. Facial expression recognition based on spatial and channel attention mechanisms[J]. Wireless Personal Communications, 2022, 13(56): 1483-1500. [百度学术]
MINAEE S, MINAEI M, ABDOLRASHIDI A. Deep-emotion: Facial expression recognition using attentional convolutional network[J], Sensors, 2021, 21(9): 3046. [百度学术]
LIU Y, DAI W, FANG F, et al. Dynamic multi-channel metric network for joint pose-aware and identity-invariant facial expression recognition[J]. Information Sciences, 2021, 578: 195-213. [百度学术]
ZHANG H, ZU K, LU J, et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network[C]//Proceedings of the 2022 Asian Conference on Computer Vision. Macau, China: [s.n.], 2022:1161-1177. [百度学术]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(3): 142-156. [百度学术]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04). http://arXiv.1409.1556v6. [百度学术]
CHOLLET F. Xception:Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE,2017: 1800-1807. [百度学术]
HE K M, ZHANG X Y, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2016: 770-778. [百度学术]
HU J, LI S, SUN G, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. [百度学术]
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19. [百度学术]
WANG Q,WU B,ZHU P, et al. ECA-Net:Efficient channel attention for deep convolutional neural networks[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 11531-11539. [百度学术]
ZHANG Q L, YANG Y B. SA-Net: Shuffle attention for deep convolutional neural networks[C]//Proceedings of the 2021 IEEE International Conference on Acoustics. Toronto, Canada: IEEE, 2021: 2235-2239. [百度学术]
ZHOU Y, FENG Y, ZENG S Y, et al. Facial expression recognition based on convolutional neutral network[C]//Proceedings of 2019 IEEE 10th International Conference on Software Engineering and Service Science (ICSESS). Beijing, China: IEEE, 2019: 410-413. [百度学术]
徐琳琳, 张树美, 赵俊莉. 构建并行卷积神经网络的表情识别算法[J]. 中国图象图形学报, 2020, 24(2): 227-236. [百度学术]
XU Linlin, ZHANG Shumei, ZHAO Junli. Expression recognition algorithm for parallel convolutional neural networks[J]. Journal of Image and Graphics, 2020, 24(2): 227-236. [百度学术]
李军, 李明. 改进多尺度卷积神经网络的人脸表情识别研究[J]. 重庆邮电大学学报(自然科学版), 2022, 34(2): 201-207. [百度学术]
LI Jun, LI Ming. Research on facial expression recognition based on improved multi-scale convolutional neural networks[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2022, 34(2): 201-207. [百度学术]
陈加敏, 徐杨. 注意力金字塔卷积残差网络的表情识别[J]. 计算机工程与应用, 2022, 58(22): 123-131. [百度学术]
CHEN Jiamin, XU Yang. Expression recognition based on convolution residual network of attention pyramid[J]. Computer Engineering and Applications, 2022, 58(22): 123-131. [百度学术]
罗思诗, 李茂军, 陈满. 多尺度融合注意力机制的人脸表情识别网络[J]. 计算机工程与应用, 2023, 59(1): 199-206. [百度学术]
LUO Sishi, LI Maojun, CHEN Man. Multi-scale integrated attention mechanism for facial expression recognition network[J]. Computer Engineering and Applications, 2023, 59(1): 199-206. [百度学术]
MA F, SUN B, LI S. Facial expression recognition with visual transformers and attentional selective fusion[J]. IEEE Transactions on Affective Computing, 2023, 14(2): 1236-1248. [百度学术]
MOON J H, PARK S. Simple facial landmark encoding for self-supervised facial expression recognition in the wild[C]//Proceedings of the 2023 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2023: 1120-1135. [百度学术]
XUE F, WANG Q, GUO G. Transfer: Learning relation-aware facial expression representations with transformers[C]//Proceedings of the 2023 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2023: 3601-3610. [百度学术]