摘要
现有的跨领域情感分类方法大多只利用了单个源域到目标域的迁移特征,没有充分考虑目标域实例与不同源域之间的联系。针对此问题,本文提出一种无监督的多源跨领域情感分类模型。首先利用单个源域到目标域的迁移特征训练基分类器,并对不同的基分类器加权;然后将不同基分类器对目标域实例预测的集成一致性作为目标函数,优化该目标函数,得到不同基分类器的权重;最后利用加权后的基分类器得到目标域的情感分类结果。该模型在亚马逊产品评论数据集上和Skytrax数据集上进行了实验,并与6种基线模型进行了比较。实验结果表明,本文方法相比基线模型,在8个不同目标域的实验中分类性能均有明显提升。
传统的跨领域情感分类是将在源域学习到的特征表示迁移到目标域
利用多个源域数据的直接方法是将它们的数据组合成单个领域。然而,这种策略没有考虑到不同源域和目标域实例之间的关系,将不同领域的特征构建到共同的特征空间中可能会清除部分领域的特征,并导致负面转移,影响情感分类器在目标域的性
多源跨领域情感分类方法以单源跨领域情感分类为基础。现有的单源跨领域情感分类方法大多是通过对齐源域特征和目标域特征,来减少不同领域间的域间差。Yu
多源跨领域情感分类任务需考虑的主要问题是不同领域间的联系。Yasuhisa
问题描述:本文遵循多源跨领域情感分类设置,设定源域标签数据来源于m个源域:,表示第个源域中第个实例及其对应的情感标签。目标域数据定义为:,表示目标域中第个实例。多源跨领域情感分类任务的目标是集成多源域数据,并在目标域中取得较好的分类效果。
基于集成一致性的多源跨领域情感分类模型流程如

图1 基于集成一致性的多源域跨领域情感分类流程图
Fig.1 Flow chart of multiple source domain cross-domain emotion classification based on ensemble consistency
基于信息熵的集成一致性原则描述如下:利用不同源域到目标域的迁移特征训练得到不同的分类器,并预测目标域实例的情感极性;当各分类器对目标域实例预测高度一致时,信息熵达到最小,模型达到集成一致性。
本文使用Logistics分类器为基分类器。定义集成分类器,,第个Logistics分类器对输入实例的极性预测概率为,那么个分类器的平均概率分布为
(1) |
由此得到平均概率的信息熵的计算公式
(2) |
本文以情感二分类问题为例来说明一致性度量的作用,如
(3) |
式中,为一致性度量值,为个分类器对实例预测的概率,E为
基于加权集成分类器模型的一致性度量函数为
(4) |
式中,为集成分类器的权重集合,为第个分类器对应的权重,为基分类器的数目,为集成分类器的一致性度量值,当不同分类器加权后计算得到的值达到最大时,分类器对目标域实例预测结果的共识程度达到最大。
本文使用模拟退火(Simulated annealing, SA)算法寻找最优参数使的值达到最大。模拟退火算法以一定的概率接受比当前解效果差的解,更有利于跳出局部优化达到全局优化,得到集成一致性的全局最大值,算法描述如下:
(1) 给定初始值,终止值,,给定初始可行解,,目标函数,设定每一个值下的迭代次数;
(2) 迭代次数计数器,重复步骤(3)至步骤(6);
(3) 产生新解,不断更改自变量的值,为之间产生的随机变量;
(4) 计算,优化目标;
(5) 如果,接受为当前解,否则以一定的概率接受新解为当前解;
(6) 判断每个值下的是否达到迭代次数,达到终止条件,则退出;
(7) 判断值是否达到终止条件,设的下降幅度为,,逐渐下降,, 转步骤(2)。否则,获得当前最优解。
基于集成一致性的多源跨领域分类模型的时间复杂度主要为其寻优算法的时间复杂度,即模拟退火算法的时间复杂度O(n)。
本文方法在亚马逊产品评论数据
本文方法还在Skytrax评论数据
该模型为文献[
(3) IDDIWP
该模型为文献[
(4)DWHC
该模型为文献[
(5)CP⁃MDA
该模型为文献[
(6)DAN
该模型为文献[
(7)MAN
该模型为文献[
本文实验分2部分,第1部分为本文集成方法与单源域迁移的实验结果对比。本文分别选用AE⁃SCL和AE⁃SCL⁃SR模型来提取单源域迁移特征,AE⁃SCL和AE⁃SCL⁃SR模型将非枢轴特征向量矩阵作为神经网络的输入,将枢轴特征向量作为神经网络的输出,通过在非枢轴特征和枢轴特征之间建立起连接,得到隐层的迁移特征。在得到迁移特征后,训练Logistics分类器预测情感极性。第2部分为本文模型与基线模型的实验结果对比。本文从数据集中选取1个领域为目标域,剩下3个领域为源域。选用Logistics作为基分类器,训练得到3个源域到目标域的分类器,,。模拟退火优化算法中,初始值,终止值,迭代次数 。设置Logistics分类器和的初始权重为[0.1,0.5]区间的随机值,分类器的权重,值不断下降,下降幅度。
本文分别用AE⁃SCL和AE⁃SCL⁃SR作为提取单源域迁移特征的模型,在得到单源域迁移特征后,使用本文方法训练并集成Logistics分类器,得到多源跨领域情感分类的结果。实验结果对比如
从
以AE⁃SCL⁃SR为特征迁移模型时,本文方法明显优于AE⁃SCL⁃SR单源域的准确率,其中以B为目标域时,本文方法比E→B单源域情感分类准确率提升了6.1%;以E为目标域时,本文方法比B→E单源域情感分类准确率提升了5.7%。
以上实验结果说明了使用不同的特征迁移基模型时,本文方法均可以取得较好的实验结果。与单源域实验结果对比,基于集成一致性多源域的方法可以更准确地预测目标域实例所属的情感类别,减少了目标域对单源域的依赖,缓解了因源域不同导致分类性能差异较大的缺点。
为了验证本文方法的有效性,本文在亚马逊产品评论数据集以及Skytrax数据集上进行了实验。亚马逊数据集上的实验结果如
从
从
与基线模型的实验对比验证了本文方法的有效性,说明基于集成一致性的多源域跨领域情感分类模型,可以很好地集成目标域实例在不同源域的表征,更准确地预测目标域实例的情感极性。并且,基于一致性的集成多源域情感分类结果比较稳定,不再局限于单域的影响,摆脱了当源域不同、域间差异不同时,分类性能差异明显的缺点。本文模型训练以及预测过程中,并没有用到目标域的标签,相对于弱监督、半监督任务需要部分目标域标签来辅助训练,本文模型摆脱了对目标域标签的依赖。
针对跨领域情感分类任务,本文提出了基于多源域集成的跨领域情感分类模型。充分利用不同源域分类器对目标域实例的预测概率,引入集成一致性,最大化不同源域分类器对同一目标实例的预测共识。通过优化算法得到分类器权重,达到多源域集成模型的一致性。本文方法集成了多源域的优势,得到了稳定的情感分类结果。实验结果表明,本文方法相比基线模型能够更好地解决跨领域情感分类任务。本文的多源域集成方法性能受限于单源域迁移特征,在今后的工作中可以考虑使用其他单源域特征迁移方法,以进一步提高分类质量。
参考文献
VON Grünigen D, WEILENMANN M, DERIU J, et al. Potential and limitations of crosss-domain sentiment classification[C]//Proceedings of the Fifth International Workshop on Natural Language Proceedings for Social Medial. Spain: Association for Computational Linguistics, 2017: 17-24. [百度学术]
HE R, Sun L W, TOU N H, et al. Adaptive semi-supervised learning for cross-domain sentiment classification[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Belgium: Association for Computational Linguistics, 2018: 3467-3476. [百度学术]
BOLLEGALA D, Mu T, GOULERMAS J. Cross-domain sentiment classification using sentiment sensitive embeddings[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(2): 398-410. [百度学术]
KFIR A, Jing L, MINGYI S, et al. Neural best-buddies: sparse cross-domain correspondence[J]. ACM Transactions on Graphics (TOG), 2018, 37(4): 1-14. [百度学术]
ABDELWAHAB O, ELMAGHRABY A. Deep learning based v.s. markov chain based text generation for cross domain adaptation for sentiment classification[C] //Proceedings of 2018 IEEE International Conference on Information Reuse and Integration. USA: IEEE, 2018: 252-255. [百度学术]
YU Jianfei, JIANG Jing. Learning sentence embedding with auxiliary tasks for cross-domain sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. USA: Association for Computational Linguistics, 2016: 236-246. [百度学术]
BOLLEGALA D, MAECHARA T, KAWARABAYASHI K. Unsupervised cross-domain word representation learning[C]//Proceedings of the 53th Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Proceedings. [S.l.]: Association for Computational Linguistics, 2015: 730-745. [百度学术]
GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training of neural networks[J]. Journal of Machine Learning Research, 2015, 17(1): 2096-2030. [百度学术]
LI Z, ZHANG W, wu Y, et al. End-to-end adversarial memory network for cross-domain sentiment classification[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. Australia: Morgan Kaufmann, 2017: 2237-2243. [百度学术]
ZISER Y, REICHART R. Neural structural correspondence learning for domain adaptation[C]//Proceedings of the 21st Conference on Computational Natural Language Learning. Canada: Association for Computational Linguistics, 2017: 400-410 . [百度学术]
YASUHISA Y, TSUTOMU H, TOMOHARU I, et al. Transfer learning for multiple-domain sentiment analysis-identifying domain dependent/independent word polarity[C]//Proceedings of the Twenty-Fifth Conference on Artificial Intelligence. USA: AAAI, 2011: 1286-1291. [百度学术]
DUAN Lixin, IVOR W T , XU Dong, et al. Domain adaptation from multiple sources via auxiliary classifiers[C] //Proceedings of the 26th Annual International Conference on Machine Learning. Canada: ACM, 2009: 289-296. [百度学术]
YU Mo, GUO Xiaoxiao, YI Jinfeng, et al. Diverse few-shot text classification with multiple metrics[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. USA: Association for Computational Linguistics, 2018: 1206-1215. [百度学术]
BHATT H S, SINHA M, ROY S. Cross-domain text classification with multiple domains and disparate label sets[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Germany: Association for Computational Linguistics, 2016: 1641-1650. [百度学术]
CHEN X, CARDIE C. Multinomial adversarial networks for multi-domain text classification[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. USA: Association for Computational Linguistics, 2018: 1226-1240. [百度学术]
JOHN Blitzer. Amazon dataset[EB/OL]. (2007-08-02). http://www.cs.jhu.edu/~mdredze/datasets/sentiment /index2.html. [百度学术]
SKYTRAX. Skytrax user reviews dataset[EB/OL]. (2015-08-02) [2018-12-27]. https://github.com/quankiquanki/ skytrax-reviews-dataset. [百度学术]
MANSOUR Y, MOHRI M, ROSTAMIZADEH A. Domain adaptation with multiple Sources[C]//Proceedings of Neural Information Processing Systems. Canada: NIPS, 2009: 1041-1048. [百度学术]
CHATTOPADHYAY R, Ye Jieping, PANCHANATHAN S, et al. Multi-source domain adaptation and its application to early detection of fatigue[C] //Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. USA: ACM, 2011: 717-725. [百度学术]
ZISER Y, REICHART R. Pivot based language modeling for improved neural domain adaptation[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. USA: Association for Computational Linguistics, 2018: 1241-1251. [百度学术]