2. 太原理工大学大数据学院, 晋中, 030600
2. College of Big Data, Taiyuan University of Technology, Jinzhong, 030600, China
互联网及移动技术的快速发展,不仅改变着人们的生活方式,同时也产生了海量数据资源。如何从繁杂无序的文本中挖掘出有价值的用户信息,已成为业界广泛关注的问题,因此用户属性推断应运而生。用户属性推断,旨在通过一段时间内用户的已有数据(如搜索信息、购物信息、地理位置以及移动通信等)推断用户属性,具体属性包括:性别、年龄和受教育程度等。对于企业而言,了解自身产品受众的属性有助于设计营销方案及广告宣传策略、实现产品定位及线上线下的市场推广;对刑侦类工作而言,掌握嫌疑人的基本属性有利于排除干扰因素,进一步缩小侦查范围。因此属性推断能力的强弱直接关系到相关应用的准确性。在用户属性推断研究方面,虽然近几年得到了产业界和学术界的关注,但仍然面临着巨大的挑战,主要表现在:(1)现有的用户属性推断方法大多是为用户提取基于经验所得的特征,却忽略了用户的整体表征对用户属性推断的贡献,这在一定程度上导致用户属性间的关联关系难以发挥作用,限制了用户属性推断的可参考范围;(2)大多数用户属性推断问题多归为分类问题,即将属性划分为不同的阈值,转化成二分类或多分类问题。但使用多分类器融合技术较单一分类方法而言具有较强的泛化能力。针对以上两点,本文提出基于多任务融合模型的用户属性推断方法。从语义及语法两个维度实现用户整体表征;并在单模型训练基础上建立多个属性间的关联关系,提高单任务学习的区分度;最后采用模型融合技术,完成属性间的关联性学习,进一步提高推断准确率,增强泛化能力。
用户属性推断正在由基于特征工程的推断方法向基于深度学习的推断方法发展。早期一些工作试图根据语言学中写作数据推断用户属性[1]。随后,互联网发展为用户属性推断提供了新的契机,基于用户浏览历史的统计学方法应运而生[2, 3]。同时,在线社交网络与移动平台的建立为用户属性推断积累了空前规模的用户量,这使得推断用户属性的可能性和迫切性进一步提升。基于移动日志[4]、网站访问流量[5]及地理位置信息[6]的用户属性推断逐渐增多,成为连接用户离线和在线生活的桥梁,为用户属性推断提供依据。可见,在传统的基于特征工程的用户属性推断研究中,用户属性推断的好坏多依赖于经验所得,特征的针对性较强,而用户整体的表征能力一定程度上被忽略,这使得用户属性间的潜在联系难以发挥作用。
近几年兴起了深度学习方法[7-17]解决用户属性推断问题,在一定程度上降低了对经验特征的依赖关系。此类方法大多通过词嵌入方式进行词语语义学习,并使用连接或平均池化作用最终形成用户内容向量,再通过分类器完成属性分类。在文本分类、命名实体识别以及关系抽取等相关研究中也取得了显著的成果。王礼敏[8]等利用单通道长短时记忆模型(Long-short term memory,LSTM)分别学习得到微博文本及社交信息的特征表示,建立双通道LSTM模型学习两组特征之间的关系获得最终分类结果。戴斌[9]等将LSTM作为分类器,通过迭代将确定性高的视图文本及其对应的其他类型文本自动标注并加入标注样本中,同样取得了较好的性别分类结果。但LSTM通常对于序列任务有较大的优势,对于短文本及乱序而言,其分类效果并不理想, 且上述特征选取只考虑了用户文本的语义信息,而忽略了其他角度特征提取(如关键词)对用户属性推断的重要作用, 且用户属性间的关联关系并未得到很好的利用。
1 多任务融合推断模型本文提出基于多任务融合模型的用户属性推断方法,如图 1所示。本框架主要分为两个阶段,第一阶段,单模型单特征推断,根据用户数据采用基于文本语义(doc2vec_DBOW, doc2vec_DM)及基于文本语法的去冗余关键词(TF-IDF_MR)学习方式实现用户级向量表示,然后通过模型训练出每个用户的M种特征分布概率;第二阶段,基于关联学习模型的多任务融合推断,即将第一阶段每种表示方式所得结果与用户表征相结合,作为用户整体表征的补充完成模型训练,输出用户多个任务的属性矩阵,再将多个单模型训练结果的多任务属性矩阵作为用户表征向量的附加条件,进行融合学习,最终得出用户多个属性取值。
![]() |
图 1 多任务融合推断模型框架 Fig. 1 Multi-task ensemble inference model framework |
本框架主要突出了用户的整体表征及属性关联度表征。通过基于文本语义及去冗余关键词计算的单模型单特征训练,完成用户整体表征;在第二阶段基于关联学习模型的多任务融合推断中充分利用任务间的关联性(如年龄及受教育程度的关联关系),为用户属性推断提供参考依据,从而进一步增强用户属性推断的准确性。
2 单模型单特征推断本文的单模型单特征推断主要采用两类模型:基于doc2vec模型的单特征推断及基于TF-IDF_MR模型的单特征推断。采用doc2vec中的DM及DBOW从语义层面实现用户的整体表征,并使用改进后的去冗余关键词策略TF-IDF_MR算法从词频角度实现用户文本数据的重要性度量。
2.1 基于doc2vec模型的单特征推断自然语言处理困难之处在于语义复杂、难以表征,通常需要将语言数学化,而向量化便是一种很好的方法。One-hot representation是较为常见的词语表示方法之一,但该方法在受到维数灾难困扰的同时并不能很好地刻划词语之间的相似性。
Google提出了一种开源的可对词语实现低维实数向量表示的工具包word2vec,其使用的训练方法有两种:CBOW(Continuous bag-of-words)和Skip-gram。该向量表示基于神经语言模型,通过对大规模数据的训练,将词的上下文信息表示在向量中,实现文本内容向量化,但其只针对词语语义表征。doc2ve在word2vec词向量表征思想基础上,实现了分布式文档表征。作为一个处理可变长度文本的方法,该方法与word2vec的最大区别在于加入了一个新的与单词维度相等的向量作为句子表征、段落表征或者文档表征。故本文将doc2vec的文档表示应用于用户级别,依据用户文档,对每个用户进行很好的语义总结,提取出反映用户属性的用户文档向量。
在doc2vec中有两种模型可生成用户向量:DM(Distributed memory model)和DBOW(Distributed bag of words)。图 2为DM训练过程。其中D为用户文档矩阵,W为单词矩阵。在该模型中,使用具有3个词的上下文的池化或连接来预测第4个词,用户文档量表示当前上下文中缺少的信息,可以作为用户文档主题的记忆。在word2vec模型CBOW基础上新增文档ID作为训练语料中每个文档的唯一标识,即本文的用户文档ID标识,与其他单词W一样映射成一个维度相同的向量,然后在固定窗口内将其与词向量进行池化或连接用于下一个单词的预测。在训练过程中使用随机梯度下降及反向传播方式更新用户文档向量、单词向量及其所对应的权值。在每一次的训练中,用户文档向量共享,即用户文档向量会作为一个的固定的向量参与到整个训练过程,不因窗口滑动而忽略。DBOW训练方式与word2vec中的Skip-gram类似,不同之处也在于用户文档向量的添加,即每一次单词概率的训练都有用户全局文档语义的参与。训练完成后再通过分类模型进一步提升DBOW及DM所得模型在相应的单任务预测结果上的准确率。
![]() |
图 2 DM训练过程 Fig. 2 DM training process |
2.2 基于TF-IDF_MR模型的单特征推断
最大化特征与分类变量之间的相关度是特征选择中较为常见的一种方式。但由于提取的特征之间存在较高相关性,使得提取出的前N个较好的特征组合并不一定能提升最终分类效果。因此本文提出TF-IDF(Term frequency-inverse document frequency)_MR联合策略进行关键词提取。即在TF-IDF提取的关键词基础上,采用互信息概念通过最小冗余(MR)标准消除关键词之间的冗余。
TF-IDF算法是一种简单而高效的关键词提取方法,用于衡量单词对文本的重要程度。设文档集为D,d为D其中一个文档, N表示D中的全部文档数目,计算公式为
$ \begin{align} &{{\mathit{\boldsymbol{W}}}_{\text{TF-IDF}}}=TF\times \text{IDF}~ \\ &\text{IDF}=\text{log}\left( N/n \right) \\ \end{align} $ | (1) |
式中:TF计算单词t占文档d所有词的比重,即在文档d中的出现频率;IDF表示文档的逆文档频率,指该词在其他文档中分布的稀疏性,n表示在D中包含t的文档数。
对于用户文档而言,TF-IDF可以很好地提取用户关键词信息,但其选择过程没有考虑关键词之间的相关性,即选择的关键词之间可能存在冗余。MR算法可通过计算特征间互信息的方式判断冗余度的大小。对于两个高相关度的单词来说,去掉其中某个单词并不会影响最终分类结果。所以对关键词子集S(S⊂tfidf,tfidf为通过TF-IDF方式选取得到的关键词集),使用最小冗余标准,如式(2)所示。
$ \text{min}R\left( S \right), R=\frac{1}{{{\left| S \right|}^{2}}}\sum\limits_{{{w}_{i}}, {{w}_{j}}\in S}{I({{w}_{i}}, {{w}_{j}})} $ | (2) |
式中I(wi, wj)表示两个单词之间的互信息。
结合上述约束,产生关键词集为
$ \text{max}\sigma (\text{tfidf}, R), \sigma =\text{tfidf}-R $ | (3) |
基于此,最后采用相对快速的逻辑回归方式进行用户分类。
3 基于关联学习的多任务融合推断因为数据本身和最终分类属性间的联系复杂,所以数据间的关联性一定程度上有利于提高属性推断的准确率。上述单任务模型虽然训练有效,但对多分类断而言效果并不理想。从另一个角度讲,单任务学习会忽略用户属性之间的关联关系,但这种关联关系却可以作为相关任务的分类依据,所以在传统单模型单任务训练基础上,加入相关属性特征,共同作为单模型、多任务用户属性推断的输入。同时,使用不同模型分类的侧重点有所不同,本文采用Stacking融合机制,借助单模型、多任务训练结果并将其组合起来,从而达到比单模型训练结果更好的分类效果,降低模型过拟合的可能性。
基于Stacking的多模型融合框架中,将关联学习中单模型、单任务学习结果组合作为单模型、多任务学习的输入,通过关联学习针对各属性得到多个分类模型;在融合阶段,将上一阶段各单模型、多任务训练结果中的各属性组合形成新的数据集,使用支持向量机方法在新的数据集上进行训练得到新的分类模型,用于最终用户属性的推断。
图 3给出了单模型、多任务关联学习过程。即对于单个模型而言,分别将DBOW,DM及TF-IDF_MR单任务、单模型分类所得的属性特征矩阵加入用户文档向量,用于用户的联合表征,并通过分类器训练完成用户属性推断。此后,还需与其他单模型多任务训练结果融合训练,从而训练出具有较强泛化能力的分类模型。
![]() |
图 3 多任务关联学习模型 Fig. 3 Multitasking association learning model |
4 实验结果与分析 4.1 实验数据集及实验环境
数据集1 本实验采用2016年由中国计算机学会举办的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》的比赛数据为实验数据集,其中有10万条训练数据,如表 1所示。
![]() |
表 1 数据集1格式说明 Tab. 1 Format description of data set 1 |
数据集2 采用大型超市的零售数据集(2012~2013年)。经过前期预处理后数据集中包含7万个用户及其属性和购买记录,平均每个用户购买商品约225件。其用户属性包括:性别、婚姻、所在年龄段、收入以及受教育程度。本文仅选取性别、所在年龄段和受教育程度3个属性作为推断属性。
实验环境:实验在服务器上进行,实验环境如下:处理器:Intel(R) Xeon(R) 4颗8核;内存为128 GB;操作系统为Red Hat Enterprise Linux Server Release 6.5操作系统。
4.2 评价指标评价指标为用户各属性推断结果的准确率。其中,性别、所在年龄段和受教育程度分别计算准确率,最终以平均准确率作为评判依据。
评价指标准确率为
$ P=\frac{1}{N}\sum\limits_{i=0}^{N}{I\left( {{{\hat{y}}}_{i}}={{y}_{i}} \right)} $ |
式中:
平均准确率计算公式为
$ \overline{P}=\frac{{{P}_{\text{gender}}}+{{P}_{\text{age}}}+{{P}_{\text{education}}}}{3} $ |
本文的假设基础是:用户属性之间存在关联关系,故本文针对数据集1,进行了年龄段与受教育程度关联度分析:实验数据采用数据集1中随机抽样的2万个用户数据,通过weka平台建立散点图,如图 4所在年龄段与受教育程度关联关系分布。由图可知,所在年龄段与受教育程度近似呈线性相关,即年龄较小的用户其受教育程度较低的可能性较大。
![]() |
图 4 所在年龄段与受教育程度关联关系 Fig. 4 Relationship between age and education |
4.4 基于关键词策略的属性推断结果对比
在实验中发现,本文所提取的用户关键词中存在一定的冗余。所以,本文在基于TF-IDF的关键词策略基础上,为去除关键词冗余,采用互信息概念,加入最小冗余机制,共同作为用户属性推断依据。实验结果如表 2所示。
![]() |
表 2 TF-IDF与TF-IDF_MR结果对比 Tab. 2 Comparison of results between TF-IDF and TF-IDF_MR |
由表 2可知,加入最小冗余机制的TF-IDF_MR分类准确率略高于传统的关键词提取算法。由于传统的TF-IDF算法所提取的前k个关键词可能存在较强的冗余性,导致用户的片面表征,丧失了整体属性特质。而去除冗余后的前k个关键词具有较全面的用户表征能力,故在实验中用户属性推断准确率有所提升。
4.5 基于关联学习的多任务推断结果对比本文使用doc2vec中的DBOW模型及DM模型在数据集上进行多次试验,试验结果表明,由于属性间的相互联系,加入预测属性特征的单模型训练可以赋予用户更丰富的表征,有助于更好地单任务预测。实验结果如表 3,4所示。其中,Multi-DBOW与Multi-DM为多任务模型。
![]() |
表 3 单任务与多任务DBOW模型结果对比 Tab. 3 Comparison of single task and multi-task results based on DBOW model |
![]() |
表 4 单任务与多任务DM模型结果对比 Tab. 4 Comparison of single task and multi-task results based on DM model |
实验结果表明、在单任务单模型训练基础上加入多任务因素,有利于提高单模型训练结果的准确率。同时,由表 3及表 4可以看出,加入多任务后,两个数据集中对于所在年龄段和受教育程度的预测结果提升较为明显。数据集1中,所在年龄段分别提升2.0%和3.7%,受教育程度分别提升2.7%和3.3%;数据集2中,所在年龄段分别提升1.9%和2.5%,受教育程度分别提升2.3%和2.8%,分析原因在于:所在年龄段和受教育程度在单任务中的训练本身较为困难,然而受教育程度与所在年龄段存在着较强的关联性,多任务关联学习中二者有明显提高。
在两个数据集中比较表 3与表 4可以看出,基于DM的多任务训练平均提升值(3.3%,2.6%)要高于基于DBOW的多任务训练的平均提升值(1.8%,2.0%),原因可能在于DM的训练方式是从句子中随机抽取词语进行训练,一定程度上忽略了词语之间的次序关系,所以当对用户向量进行非词语语义向量扩充时,其效果更明显。其所在年龄段的提升同理。
4.6 多模型融合推断结果比较本文分别选择了改进后基于Multi-DBOW,Multi-DM和TF-IDF_MR作为3个单独模型,与使用Stacking机制的融合模型进行对比。对比结果如表 5所示。由表 5可知,实验集1与实验集2经过模型融合后准确率较单模型都有很大程度的提升,可见多模型融合在用户属性推断中起着重要作用。且实验中发现,随着模型数量的不断增加,训练结果准确率会逐步提高。尤其是当加入doc2vec模型后,提升效果较为显著,说明该模型的加入有助于整体的学习和分类。与此同时,较多模型的加入会直接影响模型融合效率,故选择合适的且具有针对性的模型对融合而言至关重要。
![]() |
表 5 单模型与多模型融合推断结果比较 Tab. 5 Comparison of inference results between single-model and multi-model ensemble |
4.7 与CCF2016测评结果比较
表 6中给出了在数据集1上,利用本文方法在使用较少模型的情况下所得评价结果与该参评系统前10名平均水平和最高测评结果的对比。由表 6可见,本文方法较测评结果准确率有所提高。
![]() |
表 6 测评结果比较 Tab. 6 Comparison of evaluation results |
5 结束语
本文讨论了使用多任务融合模型的用户属性推断方法研究。通过考虑用户属性之间的关联关系,在单任务模型的基础上增加关联学习,从而利用属性间的隐性关联,更好地表征用户,提高单任务模型分类的准确率。同时,结合stacking多模型融合技术,进一步提高模型推断结果。接下来的工作将进一步优化分词效果,将doc2vec中采用到的word2vec训练词向量与现有训练好的词向量结合,丰富语义表征;发掘更好的预测模型,尝试使用多种深度学习框架进行多任务间的属性推断;将用户属性推断与异构数据结合,从而更好地完成属性推断任务。
[1] |
Schler J M, Koppel M, Arfamon S, et al. Effects of age and gender on blogging[J]. Frontiers of Information Technology & Electronic Engineering, 2006, 274(S 1/2): 199-205. |
[2] |
Hu J, Zeng H J, Li H, et al. Demographic prediction based on user's browsing behavior[C]//International Conference on World Wide Web. Banff, Alberta, Canada: DBLP, 2007: 151-160.
|
[3] |
Torres S D, Weber I. What and how children search on the web[C]//ACM International Conference on Information and Knowledge Management. [S. l. ]: ACM, 2011: 393-402.
|
[4] |
Zhong E, Tan B, Mo K, et al. User demographics prediction based on mobile data[J]. Pervasive & Mobile Computing, 2013, 9(6): 823-837. |
[5] |
Culotta A, Ravi N K, Cutler J. Predicting the demographics of Twitter users from website traffic data[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2015: 72-78.
|
[6] |
Zhong Y, Yuan N J, Zhong W, et al. You are where you go: Inferring demographic attributes from location check-ins[C]//ACM International Conference on Information and Knowledge Management. [S. l. ]: ACM, 2015: 295304.
|
[7] |
Evgeniou T, Pontil M. Regularized multi-task learning[C]//Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S. l. ]: ACM, 2004: 109-117.
|
[8] |
王礼敏, 严倩, 李寿山, 等. 基于双通道LSTM模型的用户性别分类方法研究[J]. 计算机科学, 2018, 45(2): 121-124. Wang Limin, Yan Qian, Li Shoushan, et al. User gender clssification with dual-channel LSTM[J]. Computer Science, 2018, 45(2): 121-124. DOI:10.11896/j.issn.1002-137X.2018.02.021 |
[9] |
戴斌, 李寿山, 贡正仙, 等. 基于多类型文本的半监督性别分类方法研究[J]. 山西大学学报(自然科学版), 2017, 40(1): 14-20. Dai Bin, Li Shoushan, Gong Zhengxian, et al. Semi-supervied gender classification with multiple types of text[J]. Journal of Shanxi University (Natural Science Edition), 2017, 40(1): 14-20. |
[10] |
Wang P, Guo J, Lan Y, et al. Your cart tells you:Inferring demographic attributes from purchase data[J]. Proceedings of the Ninth ACM International Conference on Web Search and Data Mining, 2016, 1: 173-182. |
[11] |
Mesnil G, Mikolov T, Ranzato M A, et al. Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews[J]. Lightwave Technology Journal of, 2014, 32(17): 3043-3060. DOI:10.1109/JLT.2014.2336374 |
[12] |
Liu Y, Liu Z, Chua T S, et al. Topical word embeddings[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2015: 2418-2424.
|
[13] |
Wang P, Guo J, Lan Y, et al. Multi-task representation learning for demographic prediction[C]//European Conference on Information Retrieval. [S. l. ]: Springer, 2016: 88-99.
|
[14] |
Sun F, Guo J, Lan Y, et al. Sparse word embeddings using regularized online learning[C]//International Joint Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2016: 2915-2921.
|
[15] |
Xiang L, Sang J, Xu C. Demographic attribute inference from social multimedia behaviors: A cross-OSN approach[C]//International Conference on Multimedia Modeling. [S. l. ]: Springer, 2017: 515-526.
|
[16] |
赵军, 王红, 朱华方. 一种改进的融合关联词典的微博倾向性分析方法[J]. 数据采集与处理, 2016, 31(6): 1220-1227. Zhao Jun, Wang Hong, Zhu Huafang. Improved method for analyzing microblog orientation based on association lexicon[J]. Journal of Data Acquisition and Processing, 2016, 31(6): 1220-1227. |
[17] |
张文艳, 李存华, 仲兆满, 等. 结合规则与语义的中文人称代词指代消解[J]. 数据采集与处理, 2017, 32(1): 149-156. Zhang Wenyan, Li Cunhua, Zhong Zhaoman, et al. Coreference resolution of Chinese personal pronouns with combination of semantics and rules[J]. Journal of Data Acquisition and Processing, 2017, 32(1): 149-156. |