摘要
针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模;提出了面向异构特征融合的论文引用预测方法,使用图神经网络处理定长特征和引文网络特征,使用循环神经网络处理引文时序特征,基于多头注意力机制对提取到的异构特征进行融合并预测被引次数。在大规模真实数据集上的实验表明,本文方法可以有效利用多种异构特征并缓解数据稀疏问题,均方根误差(Root mean squatr error,RMSE)比最好的基准方法降低了0.31。
被引频次是最具代表性、最简单、最标准和最客观的度量学术影响力的指
基于以上考虑,本文提出了基于异构特征融合的论文引用预测方法。首先,本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模;其次,提出了面向异构特征融合的论文引用预测方法,使用图神经网络处理定长特征和引文网络特征,使用循环神经网络处理引文时序特征,基于多头注意力机制对提取到的异构特征进行融合并预测被引次数。本文在基于CSSCI真实数据集的实验证明了所提出方法的有效性,可以有效缓解数据稀疏问题。
从使用特征的形态来看,当前的论文被引预测算法大体可分为3类:基于定长特征向量的方法、基于不定长引文时序特征的方法以及基于引文网络特征的方法。
定长的特征向量,主要是论文发表时即存在的特征,包括论文本身相关、期刊相关和作者相关3
基于不定长引用时序特征的方法以论文发表后前若干年的逐年被引次数为输入,预测其后的被引次数。对于这一类特征,面向时间序列的序列化学习算法是自然的解决思路。Abrishami
基于引用网络特征的方法将待预测论文看作引文网络中的节点,目前主要基于无监督的学习模式进行学习,不同于之前的分类或回归算法,这一类算法基于论文在引文网络中的拓扑信息,基于Pagerank或相近算法判断其在网络中的重要性,假设重要性更高的重要节点的引文排名会更高。相应的研究包括Walker
现有的方法大多只能利用单一类型的特征,主要出于两个原因:(1)非经专门设计,多种类型的特征很难兼容彼此。例如,引文网络特征是非欧几里得空间的数据,难以直接转化为定长特征。(2)方法本身只适用于单一类型的特征。例如,基于无监督网络学习的算法只能利用引文网络特征,无法建模其他两种特征类型。
尽管种类繁多,但对于具体的论文,特征常常是稀疏的。新发表的论文不存在被引网络和引用时序特征,大多数论文也不发表在重点期刊,或由知名学者发表。因此,建立能够同时利用多种特征的论文被引预测算法,可以有效缓解数据稀疏问题,提高预测精度。
本文定义了属性引文网络,可同时兼容定长特征、引文网络特征和引用时序特征,具体定义如下。
定义1(属性引文网络) 令,其中,为属性引文网络,V为网络中节点的集合,节点为第i篇论文,为论文的数量。为节点的邻接矩阵,存储了论文之间的引用关系,其中的元素只能为0或1,如果为,表示论文引用了。和是节点的两类属性矩阵,分别为定长特征矩阵和引用时序特征矩阵,各自存储了论文本身的特征和历年被引用的次数。两个矩阵中,第i行表示论文对应的属性向量,和分别为两类属性的维度。尽管引用时序特征本身是不定长的,发表年份越久的论文特征维度越大,但本文使用填充技术将统一转换为同一长度,可提升定义的简洁性。
本文所使用的特征和编码方式见
3种形式的特征对应于属性引文网络的位置如下:(1)定长特征,包括论文内容、期刊和作者等,存储于在内容属性矩阵中;(2)引文网络特征,本文中即为;(3)不定长引用时序特征,对应于引用属性矩阵。
值得一提的是,限于篇幅、工作量和本文所使用数据集的特点,本文并未设计和使用更多的特征。属性引文网络具有良好的扩展性,足以编码绝大部分论文被引影响因素。例如,如果数据集中包含了学术全文本信息,则可在通过自然语言处理技术提取具体的引用行为特征后,编码至中;期刊的影响因子、作者的H指数以及标题摘要等文本特征等也可直接附加至中。
本文对论文引用预测任务定义如下。
定义2(论文引用预测任务) 对于属性引文网络,每一个节点对应一个标签,是标签的集合。已知属性引文网络和一部分节点的标签,指训练集的标签,论文引用预测的目标是学习出1个模型,使得,,指测试集的标签。
标签如果是离散的,例如高被引/低被引,论文引用预测可归类为分类任务;反之,如果直接是连续的被引次数,则可归类为回归任务。Dong
算法总体框架见

图1 本文方法总体框架图
Fig.1 Framework of the proposed method
图神经网络系列算法是目前属性网络上最为强大的学习算法,其中最为经典的是图卷积神经网络(Graph convolution network,GCN
整个算法可看作多层神经网络,在第k层中输入的节点属性矩阵为,第i行对应于论文在第k层的特征表示,维度为。最初始的第0层被定义为输入层,即:。 每一层中,每一个节点都从其周围的邻接节点中搜集信息,并更新到下一层的节点属性特征向量中去。为了更好地利用节点本身的信息,需要首先对邻接矩阵增加自连接,使得节点可以直接利用上一层自己的信息,即
(1) |
式中为对角线为1、其余位置均为0的方阵。再进行矩阵行和列的归一化处理,有
(2) |
式中为对角矩阵,元素为节点的度,有
(3) |
第k层的GCN函数为
(4) |
式中: 为线性转换矩阵; 为非线性激活函数。
一般GCN多为2层,过多的层数会引起过平滑现象,从而导致性能下降。所以对于2层的GCN,论文的网络特征表示矩阵可由
(5) |
论文的引用特征,反映了学术界对工作的认同程度和引文曲线的形态。本文使用循环神经网络对时间序列进行建模,为解决循环神经网络的梯度爆炸和梯度消失问题,使用了长短期记忆单元(Long‑short term memory unit,LSTM
首先,利用门函数计算遗忘门向量、输入门、输出门,以及单元状态更新值,有
(6) |
式中:为sigmoid函数;为论文在第t-1年的隐藏层向量;、、、为线性转换矩阵;、、、为偏置向量。
其次,基于上述4个向量对单元状态进行更新,并得到新的隐藏层向量,有
(7) |
式中为激活函数,即
(8) |
式中初始的和都设置为向量。
每篇论文得到一个逐年的隐藏层向量ht,按行堆叠,即可得到其逐年的隐藏层矩阵,表示LSTM的隐藏层维度。常见的LSTM常以的最后一列作为输出。而对于引用次数预测任务,由于“睡美人“等形态引用曲线的存在,中间步数的输出也可能具有重要的预测意义,本文将序列的每一步输出都保留下来,用于下一步针对性的特征融合。
注意力机制被广泛应用于机器翻
对于论文,其网络特征表示向量记为,即为在2.2节所得的网络特征表示矩阵中的对应行数;对应的时序特征矩阵为,由2.3节得出。由于中包含了不同年份的论文引用时序特征,本文基于多头注意力机制,以为查询式,对不同年份的特征,也就是的不同列,赋予不同的权重,聚焦于对未来被引最具预测能力的时序特征。
首先,通过线性转换、、,将和转换为查询向量、键矩阵和值矩阵,有
(9) |
其次,对查询向量和键矩阵进行按列点乘,再通过softmax函数归一化后求每一列的权值,有
(10) |
最后,不同时序的论文引用特征进行加权求和,其中表示的第i列,即有
(11) |
由于不同的时序特征中包含着不同方面的信息,此处采用多头注意力特征机制,具体流程图见

图2 多头注意力计算流程图
Fig.2 Flow chart of multi‑head attention calculation
对多头注意力和进行拼接,再经过向量点乘后,得到了最终的预测结果
(12) |
式中: 为权重向量; 为论文的预测被引次数;是拼接函数; 激活函数除了可以提供非线性转换,还能保证预测的被引次数大于等于0。
本文使用均方根误差(Root mean square error, RMSE)计算损失函数为
(13) |
再使用反向传播算法优化模型中的所有参数,包括GCN、LSTM和特征融合模块中的所有参数。
本文使用的数据库为中文社会科学引文索引(Chinese social sciences citation index,CSSCI)1998—2020年的数据,该数据库包含了中文核心期刊论文的题录和引文信息。本文以1998—2015年的数据构建了引文属性网络,并预测网络中论文在16~20年间的被引次数。按5∶1∶4的比例随机设置了训练节点、验证节点和测试节点。需要强调的是,本文采用的是半监督的学习模式,也就是说,整个网络在训练阶段对于模型都是可见的,但隐去了验证节点和测试节点的标签。

图3 属性和标签的分布图
Fig.3 Distribution of attributes and labels
本文使用在测试集上的RMSE来评测算法的精准度,该指标越低,表示预测的精准度越高。
本文对比了在论文被引预测中常用的3种算法,这些方法基于不同类型的特征进行学习。本文的数据集远大于之前的研究,例如本文的训练集包含了34万篇论文,而耿骞
随机猜测:选取测试集上所有标签的平均值作为预测结果,经统计为1.31次,该方法忽略了所有输入特征的作用。所有其他方法的结果均应优于随机猜测。
前馈神经网络(Feed‑forward neural network, FNN):前馈神经网络是经典的神经网络。深度为2层,隐藏层的单元数为512,使用Adam梯度下
循环神经网络(Recurrent neural network, RNN):循环神经网络适用于不定长的特征序列,常在论文引用预测任务中被用来建模引用时序特征。本文基于Abrishami
图卷积神经网
实验环境:全部代码基于Python 3.6实现,使用Pytorch深度学习框架。实验运行在2核的Intel(R) Xeon(R) Silver 4214R CPU @ 2.40 GHz服务器上,整个模型训练时间大约为1.5 h。GCN模块基于DG
评测指标:本文使用RMSE作为评测指标,可以看作是预测被引次数和实际被引次数的平均偏差次数,该指标越小,表示预测越为精确。如果不经训练,直接随机猜测的话,最低偏差为4.99次。
预测和训练过程:基于Early stop技术,在验证集上选取RMSE最小的模型作为最终模型,并汇报该模型在测试集上的结果。
具体参数设置:深度学习的结果和超参数、实验设置密切相关,
实验结果见
综上,可以得到3点结论:(1)本文方法能够利用多种异构特征,取得了最好的预测精度;(2)引用特征对于预测引用次数极为关键,仅基于该特征的RNN和FNN方法都取得了很好的预测精度;(3)本文的特征融合方法是有必要的,更能适应引用预测任务的特性。相比而言,使用全部特征的GCN方法和本文方法在输入特征上是公平的,但并未比仅使用、的GCN有大幅度提升,这表明GCN并不能很好地利用好引用特征。
通过比较不同年份上本文方法和基准方法的表现,验证了异构特征融合方法的有效性。

图4 不同年份下基准方法和本文方法的RMSE对比
Fig.4 Comparison on RMSE between the benchmark method and the proposed method

图5 参数敏感性分析
Fig.5 Parameter sensitivity analysis
在选择超参数时,本文方法的预测误差对GCN的隐藏层维度不太敏感,对LSTM的隐藏层维度较为敏感。选择多头注意力的个数要格外小心,会明显影响最终结果的精度。

图6 多头注意力的热力图
Fig.6 Heat map of multi-head attention mechanism
本文提出了一种融合异构特征的论文引用预测方法,可以有效利用定长特征、引用时序特征和引文网络特征进行被引预测。在CSSCI数据库18年的大规模数据上的实验证明,本文方法可以有效解决数据稀疏问题,提高预测精度,RMSE比最好的基准方法降低了0.31。尽管本文所提出的预测框架可以涵盖多种异构特征,但还不足以建模引文上下文信息。早期引文上下文中蕴含了学者对论文的初步评价,对未来被引具有重要指征意义。下一步工作探索使用具有边属性的引文网络来组织数据,将引文上下文信息放置边上,并设计针对性的预测方法。
参考文献
陈仕吉,史丽文,左文革.基于ESI的学术影响力指标测度方法与实证[J].图书情报工作,2013,57(2): 97-102,123. [百度学术]
CHEN Shiji, SHI Liwen, ZUO Wenge. Theoretical and empirical study on measure method of academicinfluence indicator based on ESI[J]. Library and Information Service, 2013,57(2): 97-102,123. [百度学术]
IBÁÑEZ A, LARRANAGA P, BIELEA C. Predicting citation count of bioinformatics papers within four years of publication[J]. Bioinformatics, 2009, 25(24): 3303-3309. [百度学术]
耿骞, 景然, 靳健,等.学术论文引用预测及影响因素分析[J]. 图书情报工作, 2018,62(14): 29-40. [百度学术]
GENG Qian, JING Ran, JIN Jian, et al. Citation prediction and influencing factors analysis on academicpapers[J]. Library and Information Service, 2018,62(14): 29-40. [百度学术]
ABRISHAMI A, SADEGH A. Predicting citation counts based on deep neural network learning techniques[J]. Journal of Informetrics, 2009,13(2): 485-499. [百度学术]
LIU L, YU D, WANG D, et al. Citation count prediction based on neural hawkes model[J]. IEICE Transactions on Information and Systems, 2020,103(11): 2379-2388. [百度学术]
胡泽文,任萍,沈佳慧.融合K值算法与三指标的神经科学领域“睡美人”论文识别及影响因素探析[J].现代情报,2022,42(3):147-156. [百度学术]
HU Zewen, REN Ping, SHEN Jiahui. Identification of sleeping beauties in neuroscience through combining K value and three indicator methods and analysis on their influencing factors[J]. Journal of Modern Information,2022,42(3): 147-156. [百度学术]
Tahamtan I, Afshar A S, Ahamdzadeh K. Factors affecting number of citations: A comprehensive review of the literature[J]. Scientometrics, 2016, 107(3): 1195-1225. [百度学术]
Feng G, Chao M, Qingling S, et al. Succinct effect or informative effect: The relationship between title length and the number of citations[J]. Scientometrics, 2018,116: 1531-1539. [百度学术]
Sohrabi B, Iraj H. The effect of keyword repetition in abstractand keyword frequency per journal in predicting citation counts[J]. Scientometrics, 2017, 110(1): 1-9. [百度学术]
Vieira E S, Gomes J A N F. Citations to scientific articles: its distribution and dependence on the article features[J]. Journal of Informetrics, 2010, 4(1): 1-13. [百度学术]
王群英, 林耀明. 影响因子、总被引频次与期刊载文量的关系研究——以资源、生态、地理方面的8个期刊为例[J]. 中国科技期刊研究, 2012, 23(1): 76-79. [百度学术]
WANG Qunying,LIN Yaoming. A study on the relationship between impact factor, total citation frequency and journal article volume in eight journals in resources, ecology and geography[J]. Chinese Journal of Scientific and Technical Periodicals,2012,23(1): 76-79. [百度学术]
Biglu M H. The influence of references per paper in the SCI to impact factors and the matthew effect[J]. Scientometrics,2008, 74(3): 453-470. [百度学术]
Frandsen T F, Nicolaisen J. The ripple effect: Citation chain reactions of a Nobel prize[J]. Journal of the Association for Information Science & Technology, 2014, 64(3): 437-447. [百度学术]
Bornmann L, Daniel H D. Citation speed as a measure to predict the attention an article receives: An investigation of the validity of editorial decisions at angew and techemie international edition[J]. Journal of Informetrics, 2010,4(1): 83-88. [百度学术]
Li X, Thelwall M, Giustini D.Validating online reference managers for scholarly impact measurement[J]. Scientometrics,2012,91(2): 461-471. [百度学术]
WALKER D,XIE H,YAN K K,et al.Ranking scientific publications using a model of network traffic[J]. Journal of Statistical Mechanics: Theory and Experiment, 2007(6): 06010. [百度学术]
刘大有,齐红,薛锐青. 基于作者权威值的论文价值预测算法[J].自动化学报,2012,38(10): 1654-1662. [百度学术]
LIU Dayou, QI Hong, XUE Ruiqing. The paper value prediction agorithm based on the authors authority value[J]. Acta Automatica Sinica, 2012,38(10): 1654-1662. [百度学术]
DAVLETOV F,AYDIN A S,CAKMAK A. High impact academic paper prediction using temporal and topological features[C]//Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. Shanghai: ACM,2014: 491-498. [百度学术]
DONG Y,JOHNSON R A,CHAWLA N V. Will this paper increase your H-index?: Scientific impact prediction[C]// Proceedings of Machine Learning and Knowledge Discovery in Databases.Porto: Springer,2015: 149-158. [百度学术]
Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2016‑01‑01)[2021‑08‑30]. http://arxiv.org/abs/1609.02907. [百度学术]
Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [百度学术]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL].[2021‑08‑30]. http://arxiv.org/abs/1706.03762. [百度学术]
DEEPAK N, JATIN C, CHARU S, et al. Learning attention-based embeddings for relation prediction in knowledge graphs[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 4710‑4723. [百度学术]
REDMON J, FARHADI A. Yolov3: An incremental improvement[EB/OL].(2018‑02‑10)[2021‑08‑30]. http://arxiv.org/abs/1804.02767. [百度学术]
Kingma D P, Ba J. Adam: A method for stochastic optimization[EB/OL]. (2014‑07‑15)[2021‑08‑30]. http://arxiv.org/abs/1412.6980. [百度学术]
SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014,15(1): 1929‑1958. [百度学术]