网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

融合主题模型和动态路由的小样本学习方法  PDF

  • 张淑芳 1
  • 唐焕玲 1,3,4
  • 郑涵 2
  • 刘孝炎 1
  • 窦全胜 1,3,4
  • 鲁明羽 5
1. 山东工商学院计算机科学与技术学院,烟台 264005; 2. 山东工商学院信息与电子工程学院,烟台 264005; 3. 山东省高等学校协同创新中心:未来智能计算,烟台 264005; 4. 山东省高校智能信息处理重点实验室(山东工商学院),烟台 264005; 5. 大连海事大学信息科学技术学院,大连 116026

中图分类号: TP181

最近更新:2022-06-10

DOI:10.16337/j.1004⁃9037.2022.03.009

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA, SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA, DRP‑SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR‑Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP‑SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。

引  言

有监督深度学

1‑3需要大量的标注样本,然而标注样本获取代价昂贵;相反,人类能够在样本匮乏的情况下学习新知识。因此小样本学4‑5(Few‑shot learning, FSL)方法的研究得到广泛关注,其目标是在每个类别只有少量样本的情况下训练模型,但是在无法有效提取特征时,导致模型泛化性能下降,是小样本学习亟待解决的问题。早期研究者应用迁移学6微调预训练模型。近年来,元学7能够比较好地解决小样本学习问题,主要有基于度量的算法、基于数据增强的算法和基于模型优化的算8。其中,基于度量的小样本学习简单有效,在面向图像和文本的任务中得到广泛关注。Vinyals9提出匹配网络,通过分段训练策略迁移元知10生成以余弦距离度量的加权K‑近邻分类器。Snell11提出原型网络,假设每个类的样本在度量空间中都存在原型,同属一个类别的样本均值向量作为该类的原型。Fort12提出高斯原型网络,将样本表示为高斯协方差矩阵,利用样本权重构造与类相关的度量函数。Gao13提出基于注意力的混合原型网络,设计了样本级别和特征级别的两种注意力机制,分别捕捉对分类更重要的样本和特征,提高关系分类模型在噪声数据集上的性能和鲁棒性。Sun14提出层次注意力原型网络,构建了特征、单词和样本3种级别的注意力机制,分别赋予不同的权重分数,训练每个类的原型。度量学习应用于自然语言处理的不同领域,如单词预测、知识图谱以及任务型对话系统。有效提取不同粒度的词特征和样本特征,是基于度量的小样本学习需要解决的难点问题。本文从词粒度考虑不同类别的词分布特征,动态更新每类的原型,提出一种基于SLDA15的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA, DRP‑SLDA)。利用SLDA主题模型识别词与类别之间的精准语义映射,获得每个类别的词分布特征。基于支持集和查询集,提出动态路由原型网络(Dynamic routing prototypical network, DR‑Proto),旨在通过动态路由算16有效利用样本之间语义交叉特征训练动态原型,从而提升小样本文本分类的泛化性能。

1 DRP‑SLDA模型

1.1 DRP‑SLDA模型框架

C‑way K‑shot表示含有C个类别且每类有K个标记样本的小样本分类问题。令D={Dtrain,Dtest}DtrainDtest=。从训练集DtrainC个类别,每类选K个有标签样本S={(xi,yi)}i=1m(m=C×K),作为支持集,xi表示第i个样本,yi[1,C]xi的类标签;每类另外选L个无标签样本Q={(xq,yq)}q=1h(h=C×L)作为查询集,xq表示第q个样本,yq[1,C]xq的类标签。测试集DtestC类的有标签支持集和无标签查询集构成。元学习方法仅从Dtrain中采样1组支持集和查询集,样本过少模型难以学习良好特征表示。借鉴文献[

17]引入源集辅助训练,增强特征表示,如图1所示。以20newsgroup数据集的3‑way 2‑shot任务为例,选3个类作为Dtest,其余17个类作为Dtrain。元训练时,从Dtrain选3个类采样支持集和查询集,剩余14个类作为源集。元测试时,从Dtest中采样支持集和查询集,将Dtrain中所有类的样本作为源集。DRP‑SLDA模型框架如图2所示,由Encoder和DR‑Proto network构成。其中,Encoder利用SLDA主题模型增强词的分布特征,得到词的特征编码。DR‑Proto network为本文提出的动态路由原型网络,利用动态路由算法提取支持集和查询集的样本交叉特征计算每类的原型。通过欧氏距离d()度量查询集与原型的相似性以分类预测。

图1  元训练样本

Fig.1  Meta‑training samples

图2  DRP‑SLDA模型的C‑way K‑shot(C=3,K=2)框架

Fig.2  C‑way K‑shot (C=3, K=2) architecture of DRP‑SLDA model

1.2 基于SLDA编码方法

为获得每个类别的词分布特征,本文提出基于SLDA主题模型的词编码方法,即图2所示DRP‑SLDA模型框架中Encoder。

1.2.1 SLDA主题模型

SLDA主题模型的概率图模型如图3所示。支持集S={(xi,yi)}i=1mxi表示第i个样本,yixi的标签。其中m为样本数,C为类别数,T为主题数,l为第i个样本的长度。xiw表示第i个样本中第w个词,ziw表示分配给xiw的主题,z=(z1,,zV)为主题向量(V为单词数)。θi为样本i的主题概率分布,φt为第t个主题的词概率分布,δt为第t个主题的类别概率分布。θiφtδt服从Dirichlet分布,其先验参数为αβγ。获得词xiw的主题标号z后,假设xiw=w且所在样本i的类标签yi=jj[1,C],通过统计频次计算θiφtδt,有

图3  SLDA概率图模型

Fig.3  SLDA probabilistic graphical model

θi,t=(ni(t)+αt)/z=1T(ni(z)+αz) (1)
φt,w=(nt(w)+βw)/v=1V(nv(w)+βv) (2)
δt,j=(nt(j)+γj)/c=1C(nt(c)+γc) (3)

式中:θi,t表示样本i的词分配给主题t的概率;φt,w表示主题t分配给词w的概率;δt,j表示主题t属于类别j的概率。ni(t)表示第i个样本被赋予主题t的次数;nt(w)表示词w被赋予主题t的次数;nt(j)表示类别j被赋予主题t的次数。αt为主题t的Dirichlet先验;βw为词w的Dirichlet先验;γj为类别j的Dirichlet先验。t=1,…,Tw=1,…,Vj=1,…,C

1.2.2 基于SLDA的编码表示

小样本学习因样本匮乏难以较好学习词特征,由于SLDA主题模型的φδ识别词汇与类别之间的精准映射,基于SLDA的Encoder旨在从单词‑类别分布中增强特征表示学习,如图4所示。SLDA模型提取单词在特定类分布特征,源集获取单词的通用性特征表示。通过双向长短期记忆网络(Bi‑directional long short‑term memory, BiLSTM

18计算单词权重,将word2vec后的单词加权求和获得样本特征表示。

图4  基于SLDA的Encoder架构

Fig.4  Encoder architecture based on SLDA

基于SLDA计算单词对于特定类的权重为

S=((-(δΤφ)log(δΤφ))-1)T (4)

式中:S{[0,1)}l×Cl表示每个样本中含有的单词总数,C表示类别总数;δRT×C表示主题的类别概率分布;φRT×l表示主题的词概率分布,T是主题数。由δΤφ计算类别-词汇的精准映射,从而获得单词特定类中的分布特征。信息熵衡量词分类的不确定性,熵值[0,1]越大越难判别所属类别。Sxiw)表示第i个样本的第w个单词是第j类的概率值,Sxiw)越大,词xiw在特定类中重要性越大。

提取源集中单词通用性特

19

R(xiw)=μP(xiw)+μ (5)

式中:xiw表示第i个样本中的第w个词;μ为平滑系数;P()表示词频。R(xiw)降低源集高频词的权重,获得xiw在通用类中的重要性。则R表示为

R={R(xi1)}C{R(xi2)}C{R(xil)}Cl×C

SR互补难以设计合理的组合函数,且两者对分类重要性一致。关键词与词序和语境有关,通过BiLSTM融合拼接SR,有

Hi=BiLSTM(Concat(R,S)) (6)

式中:Hi表示样本i全部单词的特征表示,HiRl×d

Hi={hi1,hi2,,hil}为样本i全部单词的特征表示,HiRl×d,则第i个样本的单词权重为

αi=softmax(tanh(wHiT+b)) (7)

式中:wR1×dbR1×l为可学习参数;tanh()为激活函数。通过softmax()归一化获得第i个样本l个单词的权重αiR1×l

为单词赋予不同权重,则有

xiw=u=1dαiw,uviw (8)

式中:viwR1×d表示词xiw经过word2vec的低维向量;αiw,u为权重,通过加权求和获得样本标量值xiw,令xi={xi1,...,xiw,...,xil},则样本向量xiRl×1

Encoder利用SLDA从词粒度角度引入主题特征编码,获得语义增强的样本表示。

1.3 DR‑Proto网络

基于SLDA的Encoder,提出动态路由原型网络DR‑Proto。利用支持集和查询集的样本语义交叉特征获得原型,使分类边界更清晰。DR‑Proto网络如图5所示,即图2所示DRP‑SLDA模型框架中的DR‑Proto network。图5中,DR‑Proto网络提取支持集和查询集的样本交叉特征ψij,通过动态路由算法调整耦合系数mgi,j,更新样本权重ηgi,j,多次迭代获得动态原型Cj。通过特征共享变

20将Encoder的xijxq映射到同一空间,有

x˜ij=Squash(Wsxij+bs) (9)
x˜q=Squash(Wsxq+bs) (10)

式中:xijRl×1为支持集类j的第i个样本;xqRl×1为查询集第q个样本;WsRl×lbsRl×1为共享参数。通过特征映射使x˜ijx˜qRl×1距离尽可能近,i[1,K]j[1,C]q[1,h]Squash()

21使向量x方向不变且大小取值范围[0,1),即

Squash(x)=||x||21+||x||2x||x|| (11)

考虑支持集和查询集满足独立同分布,通过提取交叉特征ψij以利用文本语义关系,有

ψij=x˜ijx˜q+|x˜ij-x˜q| (12)

式中:为元素积;||表示取绝对值。若x˜ijx˜q属于同类,样本间的距离近,则交叉特征多;否则,样本间的距离远,则交叉特征少。通过交叉特征ψijRl×1,使样本特征相应增强或弱化。

图5  DR‑Proto 网络架构

Fig.5  DR‑Proto network architecture

计算权重ηgj,获得不同样本对原型的重要性,即有

ηgj=softmax(mgj) (13)

式中耦合系数mgjR1×K为先验知识,g=1,,G为动态路由迭代次数。每个样本训练之前等概率影响原型,从而初始化mig=0使ηgjR1×K均匀分布。

根据权重计算每类的原型,有

Cj=Squash(i=1K(ηgi,jψij)) (14)

式中:ηgi,j为第g次迭代时类ji个样本的权重;K为每个类别的样本个数。ψij为交叉特征计算如式(12),得到类j的原型CjRl×1

为了增大同类样本相关性而降低不同类相关性,自上而下调整耦合系数,有

mg+1j,i=mgj,i+(x˜ij)TCj (15)

式中:若x˜ij属于原型Cj(x˜ij)TCj则增大耦合系数,增强该样本对原型的影响;若x˜ij不属于原型Cj(x˜ij)TCj则减小耦合系数,使该样本的影响边缘化。

由融合动态路由算

16的式(12~15)可知,利用语义关联的支持集和查询集提取交叉特征ψij,进而采用权重机制获得动态原型Cj。DR‑Proto网络通过为样本特征赋予权重获得动态原型,从而改进均值原11有效提取类别特征。

1.4 分类预测

样本xq与第j类原型的相似度计算采用欧氏距离,有

d(xq,Cj)=w=1l(Cwj-xqw)2 (16)

对样本xq的类别预测,有

p(ŷj,q| xq)=exp(-d(xq,Cj))j=1Cexp(-d(xq,Cj)) (17)

式中:d(xq,Cj)表示样本xq与第j类原型的欧氏距离;ŷj,q表示xq预测为类别j的概率。w[1,l]j[1,C]

采用均方误差损失(Mean squared error, MSE)优化参数,有

MSE(y,ŷ)=1hj=1Cq=1h(yq-ŷj,q)2 (18)

式中:yq表示查询集xq的真实标签one‑hot编码值;h表示查询集样本数。

2 实验分析

2.1 实验数据集

为验证模型有效性,利用20newsgroup英文数据集、FewRel关系数据集和Sogou中文数据集,采样支持集和查询集,构建C‑way K‑shot分类任务进行对比实验,数据集描述如表1所示。

表1  数据集描述
Table 1  Description of data sets
Data setCategory of train setCategory of test set
20newsgroup

comp.{graphics, os.ms‑windows.misc, windows.x

sys.ibm.pc.hardware,sys.mac.hardware,}

rec.{autos, motorcycles, sport.baseball, sport.hockey}

sci.{crypt, electronics, med, space}

alt.atheism misc.forsale

talk.{politics.misc, politics.guns, politics.guns, religion.misc}

soc.religion.christian

FewRel

P6, P22, P27, P39, P57, P84, P123, P140,P150, P175,

P449, P495, P527, P706, P740

P931, P1344, P1435, P1923, P4552
Sogou 军事, 健康, 旅游, 教育, IT, 财经 体育, 文化, 招聘

2.2 实验结果及分析

2.2.1 对比实验结果及分析

对比模型有:(1) Finetune

22:有监督的线性微调分类器。(2) 1‑nearest neighbor classifier:有监督的最近邻分类器。(3) Prototypical network11:每类支持集样本的均值特征向量作为类原型的原型网络。(4) MAML(Model‑agnostic meta‑learning23:通过梯度求和优化不同子任务初始化参数的元学习模型。(5) RR‑D2_LR‑D224:采用岭回归和逻辑回归的元学习模型。(6) Distributional signatures17:将词汇特征映射成注意力分数衡量文本表示,并使用岭回归器分类预测的元学习模型。

DRP‑SLDA模型与上述6种模型在FewRel和20newsgroup数据

17上的分类结果比较如表2所示。

表2  模型在FewRel数据集和20newsgroup据集上的准确率
Table 2  Accuracy of the model on the FewRel and 20newsgroup data sets ( % )
模型FewRel20newsgroup
5‑way 1‑shot5‑way 5‑shot5‑way 1‑shot5‑way 5‑shot
Finetune 54.1 71.1 33.0 47.1
1‑nearest neighbor 46.8 60.6 38.8 51.9
Prototypical networks 43.0 61.9 37.8 46.5
MAML 48.2 65.8 37.2 48.6
R2‑D2_LR‑D2 55.6 75.3 44.8 64.3
Distributional signatures 67.1 83.5 52.1 68.3
DRP‑SLDA 71.7 88.7 60.7 84.9

表2可知,相比有监督学习的Finetune模型和1‑nearest neighbor 模型,元学习的模型整体效果表现良好。Prototypical networks模型使用欧式距离度量映射空间内查询集与原型之间的距离预测分类;MAML模型放弃距离度量方式,通过在多个子任务中使用梯度下降法训练初始参数,微调参数以计算不同子任务的损失快速收敛模型,其在FewRel数据集上的准确率分别是48.2%、65.8%。然而,MAML模型缺乏针对各任务的分析。为此,RR‑D2_LR‑D2模型对不同任务生成先验知识,以可微分回归作为基分类器。Distributional signatures模型在RR‑D2_LR‑D2模型的基础上,将词分布特征转成注意力分数,用岭回归分类预测,在两种数据集上,两种小样本分类任务的准确率都得以提高,如20newsgroup数据集上分别提高7.3%、4.0%。

DRP‑SLDA模型对比模型(1~5)在20newsgroup数据集上准确率提升10%~30%,表明DRP‑SLDA模型引入源集是有效的,能从不同角度提取词汇特征。DRP‑SLDA模型相较于Distributional signatures模型在20newsgroup数据集上准确率分别提高8.6%、16.6%。原因在于Distributional signatures模型仅考虑词汇特征没有考虑样本权重对分类的影响,而DRP‑SLDA模型利用SLDA模型增强词分布特征且DR‑Proto网络为样本赋予权重获得动态原型。

2.2.2 DRP‑SLDA模型消融分析

消融方法简介:(1) DRP‑SLDA:本文提出的小样本分类模型。(2) DRP‑SLDA_NR:消融DRP‑SLDA模型中源集在数据扩充上的影响。(3) DRP‑SLDA_NS:消融DRP‑SLDA模型中SLDA主题模型对词分布特征的影响。(4) DRP‑SLDA_ND:消融DRP‑SLDA模型中交叉特征ψ的影响。(5) DRP‑SLDA_NDR:消融DRP‑SLDA模型中源集数据扩充和交叉特征ψ的共同影响。(6) DRP‑SLDA_NDS:消融DRP‑SLDA模型中SLDA主题模型和交叉特征ψ的共同影响。

为了分析DRP‑SLDA模型不同组件对分类效果的影响,在Sogou和20newsgroup数据集上分别进行3‑way 1‑shot、5‑way 5‑shot消融实验,实验结果如表3和图67所示。其中,Macro‑precision为宏精确度;Macro‑recall为宏召回率;Marcro‑F1为2×Macro‑precision×Macro‑recall/Macro‑precall+Marco‑precision。s

表3  消融方法在Sogou数据集和20newsgroup数据集上的实验结果
Table 3  Experimental results of the ablation method on the Sogou and 20newsgroup data sets ( % )
方法3‑way 1‑shot( Sogou )5‑way 5‑shot( 20newsgroup )
Macro‑precisionMacro‑recallMacro‑F1Macro‑precisionMacro‑recallMacro‑F1
DRP‑SLDA 69.78 68.10 65.88 86.49 84.90 83.77
DRP‑SLDA_NR 69.39 67.71 65.48 86.27 84.61 83.56
DRP‑SLDA_NS 68.76 67.53 64.94 86.14 84.45 83.38
DRP‑SLDA_ND 68.97 67.15 64.97 83.43 80.96 79.94
DRP‑SLDA_NDR 67.31 65.94 63.27 83.07 80.34 79.37
DRP‑SLDA_NDS 66.21 65.20 62.31 82.63 80.08 79.09

图6  Sogou数据集在3‑way 1‑shot下消融方法分类结果

Fig.6  Sogou data set classification results of ablation methods under 3‑way 1‑shot

图7  20newsgroup数据集在5‑way 5‑shot下消融方法分类结果

Fig.7  20newsgroup data set classification results of ablation methods under 5‑way 5‑shot

图6所示,在Sogou数据集上对于3‑way 1‑shot分类任务各消融方法结果,可以看出:(1) DRP‑SLDA对比DRP‑SLDA_NR方法,各分类指标提高0.39%、0.39%和0.40%,表明源集通用性特征表示的有效性,引入源集对模型有积极影响。(2) DRP‑SLDA对比DRP‑SLDA_NS方法,各分类指标提升1.02%、0.57%和0.94%,表明利用SLDA模型能有效增强词分布特征。(3) DRP‑SLDA对比DRP‑SLDA_ND方法,各分类指标提升0.81%、0.95%和0.91%,表明利用支持集和查询集样本,能提取语义增强的交叉特征ψ

图7所示,在20 newsgroup数据集上对于5‑way 5‑shot任务各消融方法结果,可以看出:对比 DRP‑SLDA_NDR方法,DRP‑SLDA方法各分类指标降低3.06%、4.56%和4.40%;对比DRP‑SLDA_NDS方法,DRP‑SLDA方法各分类指标降低3.86%、4.82%和4.68%。表明在没有获取样本交叉特征时,SLDA模型提取的特定类词汇特征有助于提升DRP‑SLDA模型泛化性能,而源集通过扩充数据样本提取词汇通用性特征对模型效果微效。

图8是对20newsgroup数据集的样本分布PCA降维,将样本映射到二维空间,可视化各消融方法的影响。图8(a)中3个聚类分簇显著,分类边界明显优于其他方法,说明DRP‑SLDA模型生成具有类别区分性的样本表示。

图8  消融方法在20newsgroup数据集的PCA可视化比较

Fig. 8  PCA visualization comparison of ablation methods in 20newsgroup data set

2.2.3 动态路由算法的有效性分析

为了验证DR‑Proto网络中动态路由算法对DRP‑SLDA模型分类效果的影响,在FewRel数据集上进行5‑way实验,动态路由算法的随不同迭代次数的可视化如图9所示,展示在FewRel数据集上提取样本交叉特征ψ可视化结果。由图可知,随着迭代次数的增加,模型的分类边界清晰。表明DRP‑SLDA模型通过动态路由算法的多次迭代,能够有效提取样本交叉特征,动态获得使类别边界更清晰的原型。综上所述,所提出的DRP‑SLDA模型能有效增强小样本文本分类的特征表示,提升原型的类别辨识力。

图9  不同动态路由迭代次数的样本(特征)可视化结果

Fig.9  Visualization results of samples (features) of different dynamic routing iteration times

3 结束语

本文提出一种基于SLDA和动态路由的原型网络模型DRP‑SLDA,利用SLDA模型获得词汇‑类别的语义映射增强词的分布特征,结合动态路由算法更新样本权重为不同样本赋予权重获得动态原型,从而有效提升模型的泛化性能。在多个数据集上的对比实验表明了DRP‑SLDA模型的有效性。下一步将对多标签小样本元学习方法展开研究。

参考文献

1

Kuang Shaohui, Li Junhui, Branco A, et al. Attention focusing for neural machine translation by bridging source and target embedding [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018: 17671776. [百度学术] 

2

Zhou Chunting, Sun Chonglin, Liu Zhiyuan, et al. A C‑LSTM neural network for text classification[J]. Computer Science, 2015, 1(4): 3944. [百度学术] 

3

Yang Zichao, Yang Diyi, Dyer C, et al. Hierarchical attention networks for document classification [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California: Association for Computational Linguistics, 2016: 14801489. [百度学术] 

4

Norbert J, Wlodzislaw D, Krzysztof G. Meta‑learning in Computational Intelligence [M]. Berlin, Germany: Springer, 2011: 97115. [百度学术] 

5

Lake B L, Salakhutdinov R, Tenenbaum J B. One‑shot learning by inverting a compositional causal process [C]//Proceedings of Advances in Neural Information Processing Systems. United States: Lake Tahoe, 2013: 25262534. [百度学术] 

6

Bengio Y, Guyon G, Dror V, et al. Deep learning of representations for unsupervised and transfer learning [J]. Workshop on Unsupervised & Transfer Learning, 2012: 1736. [百度学术] 

7

Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent [C]//Proceedings of International Conference on Artificial Neural Networks. Berlin, Heidelberg: Springer, 2001: 8794. [百度学术] 

8

HUISAN M, VAN R J N, PLAAT A. A survey of deep meta-learning[J]. Artificial Intelligence Review, 2021, 54(6): 4483-4541. [百度学术] 

9

Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning [C]//Proceedings of Advances in Neural Information Processing Systems. Montreal, Quebec Canada: Morgan Kaufmann, 2016: 36373645. [百度学术] 

10

Vilalta R, Drissi Y. A perspective view and survey of meta‑learning [J]. Artificial Intelligence Review, 2002, 18(2): 7795. [百度学术] 

11

Snell J, Kevin S, Richard Z. Prototypical networks for few‑shot learning [C]//Proceedings of Advances in Neural Information Processing Systems. Montreal, Quebec Canada: Morgan Kaufmann, 2017: 40774087. [百度学术] 

12

FORT S. Gaussian prototypical networks for few shot learning on omniglot [C]//Proceedings of International Conference on Learning Representations. Massachusetts, USA: OpenReview.net, 2018. DOI:10.48550/arXiv.1708.02735. [百度学术] 

13

Gao Tianyu, Han Xu, Liu Zhiyuan, et al. Hybrid attention‑based prototypical networks for noisy few‑shot relation classification [C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l]: AAAI, 2019: 64076414. [百度学术] 

14

SUN Shengli, SUN Qingfeng, ZHON K, et al. Hierarchical attention prototypical networks for few-shot text classification [C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019: 476-485. [百度学术] 

15

唐焕玲, 窦全胜, 于立萍,. 有监督主题模型SLDA‑TC文本分类新方法 [J]. 电子学报, 2019, 47(6): 13001308. [百度学术] 

Tang Huanling, Dou Quansheng, Yu Liping, et al. SLDA‑TC: A novel text categorization approach based on supervised topic model[J]. Acta Electronica Sinica, 2019, 47(6): 13001308. [百度学术] 

16

Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules [C]//Proceedings of Advances in Neural Information Processing Systems. Long Beach, CA,USA: Curran Associates Inc, 2017: 38563866. [百度学术] 

17

BAO Yujia, WU Menghua, CHANG Shiyu, et al. Few-shot text classification with distributional signatures [D]. Boston, Cambridge, USA: Massachusetts Institute of Technology, 2020. [百度学术] 

18

Sepp H, Jurgen S. Long short‑term memory [J]. Neural Computation, 1997, 9(8): 17351780. [百度学术] 

19

Arora S, Liang Yingyu, Ma Tengyu. A simple but tough‑to‑beat baseline for sentence embeddings [C]//Proceedings of International Conference on Learning Representations. Massachusetts, USA: Open Review. net, 2017. [百度学术] 

20

Geng Ruiying, Li Binhua, Li Yongbin, et al. Induction networks for few‑shot text classification [C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019: 39023911. [百度学术] 

21

Hinton G E, Krizhevsky A, Wang S D. Transforming auto‑encoders [C]//Proceedings of Artificial Neural Networks & Machine Learning‑International Conference on Artificial Neural Networks. Berlin, Heidelberg: Springer, 2011: 4451. [百度学术] 

22

Chen Weiyu, Liu Yencheng, Kira Z, et al. A closer look at few‑shot classification [C]//Proceedings of In International Conference on Learning Representations. Massachusetts, USA: OpenReview. net, 2019. [百度学术] 

23

Finn C, Abbeel P, Levine S. Model‑agnostic meta‑learning for fast adaptation of deep networks [C]//Proceedings of the 34th International Conference on Machine Learning. Australia: PMLR, 2017: 11261135. [百度学术] 

24

Bertinetto L, Henriques J F, Torr P, et al. Meta‑learning with differentiable closed‑form solvers [C]//Proceedings of In International Conference on Learning Representations. Massachusetts, USA: OpenReview. net, 2019. [百度学术]