首页  |  期刊简介  |  稿件审稿流程  |  学术道德规范  |  编委会  |  征订启事  |  联系我们  |  English
中文核心期刊
中国科技论文统计源期刊
国际刊号:1004-9037
国内刊号:32-1367/TN
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式
  • 主管:中国科学技术协会
  • 主办:南京航空航天大学
  •           中国电子学会
  • 国际刊号:1004-9037
  • 国内刊号:32-1367/TN
  • 地址:南京市御道街29号
  • 电话:025-84892742
  • 传真:025-84892742
  • E-mail:sjcj@nuaa.edu.cn
  • 邮编:210016
TRAN Baphan,马菲菲,明晶晶,余秦勇,杨辉,李全兵,王永利.MSDL-IEW:面向文本分类的密集度感知主动学习算法[J].数据采集与处理,2021,36(2):240-247
MSDL-IEW:面向文本分类的密集度感知主动学习算法
MSDL-IEW: Active Learning Algorithm for Text Classification Based on Density Perception
投稿时间:2020-06-04  修订日期:2020-11-29
DOI:10.16337/j.1004-9037.2021.02.005
中文关键词:  文本分类  主动学习  隐含狄利克雷分布  不确定性  密集度
英文关键词:text classification  active learning  Latent Dirichlet allocation (LDA)  uncertainty  density
基金项目:国家自然科学基金(61941113)资助项目;中央高校基本科研业务费专项(30916011328, 30918015103)资助项目;南京市科技计划(201805036)资助项目;提升政府治理能力大数据应用技术国家工程实验室开放基金资助项目。
作者单位邮编
TRAN Baphan 南京理工大学计算机科学与工程学院 南京 210094
中电科大数据研究院有限公司 贵阳 550022
提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022 
550022
马菲菲 南京供电公司 南京 210000 210000
明晶晶 南京理工大学计算机科学与工程学院 南京 210094 210094
余秦勇 中电科大数据研究院有限公司 贵阳 550022
提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022 
550022
杨辉 中电科大数据研究院有限公司 贵阳 550022
提升政府治理能力大数据应用技术国家工程实验室 贵阳 550022 
550022
李全兵 中国电子科技网络信息安全有限公司 成都 610041 610041
王永利 南京理工大学计算机科学与工程学院 南京 210094 210094
摘要点击次数: 65
全文下载次数: 187
中文摘要:
      为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。
英文摘要:
      To solve the problem that the unlabeled data in the text classification task cannot be immediately marked and the cost is too high, this paper proposes an active learning method for uncertainty based on text classification. The MSDL (Measure sample density by LDA) algorithm is proposed to calculate the unlabeled sample density, and the new metric sample aggregation situation is introduced. The initial training set sample is selected in the densely sampled region, thus making the initial The training set is more representative. The more uncertain samples from the unlabeled samples are added to the training set, the samples are weighted based on the information entropy, and the classifier model is iteratively updated until the expected termination condition is reached. Experimental results show that this method is better than other traditional active learning algorithms in text classification tasks.
查看全文  HTML  查看/发表评论

Copyright @2010-2015《数据采集与处理》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892742      传真:025-84892742       E-mail:sjcj@nuaa.edu.cn

您是本站第2070288位访问者 本站今日一共被访问521

技术支持:北京勤云科技发展有限公司