摘要
在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。
情感在日常生活交流中扮演重要的角色。语音情感可以赋予文字更多的含义,从而在对话中更有效的传达说话人表达的信息。对人类来说,可以在对话中轻松地识别一个人的情感,然而基于人工智能的语音情感自动识别,仍是一项艰巨的任务。语音情感识别研究对于智能化的人机交互具有重要意义。
传统方法中,将语音情感识别系统分为3个重要的模块,语音的特征提取、特征选择和情感分类。研究人员多利用语音的频谱特
近些年来,随着深度学习的发展,基于端到端的深度神经网络模型逐步替代了传统的特征提取工
在深度学习领域,处理图像的卷积神经网络和处理序列数据的循环神经网络成为深度学习模型的主要工具。文献[
最近,自监督模型Wav2vec 2.0在语音识别和说话人验证取得了巨大成
虽然端到端的深度学习模型在语音情感识别上取得了显著进展,但研究人员通常只使用语音频谱特征、自监督特征等语音识别中常用的特征。这些特征中包含着丰富的语义信息,却忽视了语音中其他有助于情感识别的信息,例如声学情感信息。语音中蕴含的情感信息主要源于说话人的发音和说话内容,而发音情感指同一句话可以用不同的发音表达不同的情感,然而语音的发音声学特征不易量化和提取。语音信号中除蕴含情感信息外还包含丰富的语义信息(主要由音素组成)。在语音识别研究中,往往先从语音中识别出音素信息,然后利用搜索算法和语言模型组合成对应的文本。对于语音情感识别任务,不同音素的声学变异性是干扰情感识别的重要原因。为了克服这种声学变异性,文献[
(1)提出多任务学习模型,情感识别作为其主任务,利用与情感有关的音素识别作为辅助任务,提取语音中的声学情感特征。
(2)结合自监督模型微调策略,使得共享表征中包含更多有助于情感识别的声学情感信息。
网络整体结构如

图1 多任务学习网络
Fig.1 Multi-task learning network
为了将无监督特征向量映射到情感特征空间,本文在时间轴上对自监督特征向量进行平均池化。语音情感识别网络用交叉熵(Cross entropy, CE)损失函数计算损失来优化网络的参数。在训练阶段,多任务学习模型同时计算两个子任务的损失和,模型参数共享的部分由两个损失函数共同优化。考虑到语音情感识别任务与音素识别任务的难易不同,导致两个任务收敛的速度不同,本文设置了一个权衡系数来平衡两个任务的训练,则多任务学习的损失函数为
(1) |
本文采用Wav2vec 2.0自监督学习模型,作为语音特征提取器和多任务学习模型共享参数的主干网络。在深度学习中,监督学习和无监督学习是其两种基本的学习范式。目前监督学习受限于有标签的数据量,在数据不足时模型的性能受到了极大的限制。无监督学习不需要任何人工标注的信息,通过挖掘数据本身的特征完成相关的任务。目前,自动编码器是无监督学习广泛应用的方式。然而,其在学习隐层表征向量上仅仅是将特征进行降维,特征在时序上不包含相互关系。基于无监督学习改进的自监督学习较好地解决了这个问题。自监督学习利用辅助任务生成伪标签作为训练的目标,运用伪标签和模型的输出来计算模型的损失,通过这种方式训练出的隐层表征向量可以很好地挖掘数据中的语义信息。
如

图2 Wav2vec 2.0自监督网络
Fig.2 Wav2vec 2.0 self-supervised network
在微调阶段,语音输入信号(为语音采样点个数),经过特征编码网络得到低级特征向量(为时间帧个数,768为每个时间帧特征维度),经过上下文网络可得到高级特征向量(为上下文网络中Transformer层的个数,实验设置为12),模型前向传播计算过程如下
(2) |
(3) |
(4) |
特征融合部分,本文将低级特征向量与高级特征向量通过注意力权重融合得到语音信号的自监督特征向量,其计算过程如
音素是组成语音的最小识别单元。在语音识别研究中,先识别音素种类,然后再将音素通过字典组合成文本,因此音素识别属于语音识别的基础。语音中的情感信息主要由发音方式和发音内容决定,其中音素信息是发音的主要内容。为了提取语音中声学情感的特征,本文将情感和音素结合在一起,将二者视作一个整体,通过神经网络获得语音的声学情感特征。
音素识别任务的标签来自于每条语音的文本标注,先将文本转换为发音的音标,其次将音标转换为音素,最后为了更好地描述语音中情感与音素的关系,将音素按照发音的方式分为6类,并且为每一类音素加上了情感标签。音素的划分方式如
音素类别 | 音素 | 音素情感标签 |
---|---|---|
S(爆破音/塞擦音) | B P T D K… | S0 S1 S2 S3 |
F(摩擦音) | S Z SH ZH TH… | F0 F1 F2 F3 |
N(鼻音) | M N NG | N0 N1 N2 N3 |
L(流音/滑音) | L R Y W | L0 L1 L2 L3 |
V(元音) | AH0 AA0 AE0… | V0 V1 V2 V3… |
VS(重音/次重音) | AA1 AH2 AE1 AE2… | Vs0 Vs1 Vs2 … |
音素识别网络如
(5) |

图3 音素识别网络
Fig.3 Phoneme recognition network
在微调过程中,本文通过连接时序分类(Connectionist temporal classification,CTC)损失函数不断优化音素识别网络,即
(6) |
考虑到自监督网络本身模型庞大,本文使用的语音情感数据集较小。为防止模型出现严重的过拟合,本文使用单层全连接神经网络对自监督特征进行分类。由于每条语音的时长不同,因此,自监督特征在输入全连接神经网络之前在时间轴上进行平均池化操作。情感识别网络如

图4 情感识别网络
Fig.4 Emotion recognition network
(7) |
(8) |
式中:和分别代表平均池化操作和全连接神经网络,表示情感标签。
本文选用广泛用于情感识别的IEMOCAP(Interactive emotional dyadic motion capture
使用留一法交叉验证对算法的性能进行评估,每次使用9个人的语音作为训练集,留下1个人的语音作为测试集,保证每次实验训练集和测试集没有说话人重叠。实验结果用加权准确率(Weighted accuracy,WA)和非加权准确率(Unweighted accuracy,UA)来衡量,计算公式分别为
(9) |
(10) |
式中:WA表示整个测试集的准确率;UA用来计算测试集中每个类别准确率的平均值。实验使用PyTorch作为深度学习训练框架,多任务学习模型主干网络Wav2vec 2.0初始化用Hugging Fac
为了验证所提方法的有效性,本文将其与语音情感识别的最新研究进行了对比。这些研究与本文实验数据集的切分方式一致,本文简单总结了这些研究方法,实验结果对比如
文献 | 方法 | WA/% | UA/% |
---|---|---|---|
Sajjad | 用K均值聚类算法对语音帧进行聚类,从每类中选择一帧作为语音的特征帧拼接在一起,对此进行短时傅里叶变换计算得到频谱特征输入到ResNet101和BiLSTM网络中 | 72.25 | — |
Lu | 采取端到端语音识别网络中的编码器提取包含声学和文本信息的特征向量,利用自注意力机制调整BiLSTM解码器网络输出的不定长的特征序列为固定长度的特征 | 71.7 | 72.6 |
Liu | 多尺度的卷积神经网络学到语音频谱的局部特征,结合改进路由算法的CapsNet网络得到语音频谱的全局特征,将局部特征与全局特征结合在一起 | 70.34 | 70.78 |
Pappagari | 将X‑vector说话人预训练网络作为主干网络,微调语音情感识别 | 70.3 | — |
Liu | 提出BiLSTM‑GIN模型,用openSMILE工具提取语音特征,用BiLSTM网络编码特征,然后用GIN网络实现全局情感信息的整合 | 64.65 | 65.53 |
本文 | 单任务学习模型,Wav2vec 2.0作为主干网络,微调语音情感识别 | 72.4 | 73.9 |
本文 | 多任务学习模型,利用音素识别任务辅助主任务语音情感识别 | 76.0 | 76.9 |
从
在本文提出的多任务学习网络中,音素识别作为辅助任务,用于提高主任务情感识别的性能。为了验证音素识别任务对于情感识别任务的重要性,本文通过调整多任务学习损失函数中的大小来控制音素识别任务的重要程度。的值为0到1之间,当等于零时,多任务学习模型为单任务学习模型,音素识别网络不参与训练。由于神经网络通过链式求导更新其参数,因此,可以将损失函数的权重看作是一个学习率调整因子,用于调整反向传播过程中梯度的大小,从而影响参数的更新速度和收敛性能。当的值越大,音素识别网络在反向传播时获得的梯度越大,收敛速度越快,其音素识别任务性能越好。从
WA/% | UA/% | |
---|---|---|
0 | 72.4 | 73.9 |
0.001 | 74.5 | 75.7 |
0.01 | 75.7 | 76.7 |
0.1 | 76.0 | 76.9 |
1 | 75.2 | 76.2 |
从

图5 时的单任务学习
Fig.5 Single task learning in the case of

图6 时的多任务学习
Fig.6 Multi-task learning in the case of
针对语音情感识别中,语音的发音与语音情感高度相关,本文提出了一种多任务学习模型,与情感有关的音素识别作为辅助任务,让模型学到的自监督特征包含声学情感信息,使得模型在情感识别任务中可以利用语音中发音包含的情感。通过在IEMOCAP数据集上的训练和测试,相比较其他单任务语音情感识别方法,加权准确率和非加权准确率均有一定的提升。在后续研究中,语音中有很多与情感无关的信息,例如说话人信息,可以设计相关模型以剔除语音中的说话人相关信息,以提高模型的识别率。
参考文献
ZHOU P, LI X P, LI J, et al. Speech emotion recognition based on mixed MFCC[J]. Applied Mechanics and Materials, 2012, 249/250: 1252-1258. [百度学术]
RAO K S, KOOLAGUDI S G, VEMPADA R R. Emotion recognition from speech using global and local prosodic features[J]. International Journal of Speech Technology, 2013, 16(2): 143-160. [百度学术]
YAO Z, WANG Z, LIU W, et al. Speech emotion recognition using fusion of three multi-task learning-based classifiers: HSF-DNN, MS-CNN and LLD-RNN[J]. Speech Communication, 2020, 120: 11-19. [百度学术]
ATMAJA B T, AKAGI M. The effect of silence feature in dimensional speech emotion recognition[EB/OL]. (2020-03-03). https://doi.org/10.21437/SpeechProsody. [百度学术]
ANAGNOSTOPOULOS C N, ILIOU T, GIANNOUKOS I. Features and classifiers for emotion recognition from speech: A survey from 2000 to 2011[J]. Artificial Intelligence Review, 2015, 43(2): 155-177. [百度学术]
TZIRAKIS P, TRIGEORGIS G, NICOLAOU M A, et al. End-to-end multimodal emotion recognition using deep neural networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1301-1309. [百度学术]
ZHAO J, MAO X, CHEN L. Speech emotion recognition using deep 1D & 2D CNN LSTM networks[J]. Biomedical Signal Processing and Control, 2019, 47: 312-323. [百度学术]
SAJJAD M, KWON S. Clustering-based speech emotion recognition by incorporating learned features and deep BiLSTM[J]. IEEE Access, 2020, 8: 79861-79875. [百度学术]
LI D, LIU J, YANG Z, et al. Speech emotion recognition using recurrent neural networks with directional self-attention[J]. Expert Systems with Applications, 2021, 173: 114683. [百度学术]
FAN W, XU X, CAI B, et al. ISNet: Individual standardization network for speech emotion recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 1803-1814. [百度学术]
HOU M, ZHANG Z, CAO Q, et al. Multi-view speech emotion recognition via collective relation construction[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 218-229. [百度学术]
CHEN Z, CHEN S, WU Y, et al. Large-scale self-supervised speech representation learning for automatic speaker verification[C]//Proceedings of ICASSP 2022—2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Singapore: IEEE, 2022: 6147-6151. [百度学术]
BOIGNE J, LIYANAGE B, ÖSTREM T. Recognizing more emotions with less data using self-supervised transfer learning[EB/OL]. (2020-11-11). https://doi.org/10.48550/arXiv.2011.05585. [百度学术]
XIA Y, CHEN L W, RUDNICKY A, et al. Temporal context in speech emotion recognition[C]//Proceedings of Interspeech 2021: Conference of the International Speech Communication Association. Brno, The Czech Republic: [s.n.], 2021: 3370-3374. [百度学术]
PEPINO L, RIERA P, FERRER L. Emotion recognition from speech using Wav2vec 2.0 embeddings[EB/OL].(2021-04-08). https://doi.org/10.48550/arXiv.2104.03502. [百度学术]
YUAN J, CAI X, ZHENG R, et al. The role of phonetic units in speech emotion recognition[EB/OL].(2021-08-02). https://doi.org/10.48550/arXiv.2108.01132. [百度学术]
SCHULLER B, VLASENKO B, ARSIC D, et al. Combining speech recognition and acoustic word emotion models for robust text-independent emotion recognition[C]//Proceedings of 2008 IEEE International Conference on Multimedia and Expo. Hannover, Germany: IEEE, 2008: 1333-1336. [百度学术]
DHAMYAL H, MEMON S A, RAJ B, et al. The phonetic bases of vocal expressed emotion: Natural versus acted[C]//Proceedings of INTERSPEECH 2020: Conference of the International Speech Communication Association. Shanghai, China: [s.n.], 2020: 3451-3455. [百度学术]
CHEN L W, RUDNICKY A. Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition[C]//Proceedings of 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2023. [百度学术]
BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: Interactive emotional dyadic motion capture database[J]. Language Resources and Evaluation, 2008, 42(4): 335-359. [百度学术]
LU Z, CAO L, ZHANG Y, et al. FanSpeech sentiment analysis via pre-trained features from end-to-end ASR models[C]//Proceedings of ICASSP 2020—2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE, 2020: 7149-7153. [百度学术]
LIU J, LIU Z, WANG L, et al. Speech emotion recognition with local-global aware deep representation learning[C]//Proceedings of ICASSP 2020—2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE, 2020: 7174-7178. [百度学术]
PAPPAGARI R, WANG T, VILLALBA J, et al. X-Vectors meet emotions: A study on dependencies between emotion and speaker recognition[C]//Proceedings of ICASSP 2020—2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE, 2020: 7169-7173. [百度学术]
LIU J, WANG H. Graph isomorphism network for speech emotion recognition[C]//Proceedings of INTERSPEECH 2021: Conference of the International Speech Communication Association. Brno, the Czech Republic: [s.n.], 2021: 3405-3409. [百度学术]