首页  |  期刊简介  |  稿件审稿流程  |  学术道德规范  |  编委会  |  征订启事  |  联系我们  |  English
中文核心期刊
中国科技论文统计源期刊
国际刊号:1004-9037
国内刊号:32-1367/TN
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式
  • 主管:中国科学技术协会
  • 主办:南京航空航天大学
  •           中国电子学会
  • 国际刊号:1004-9037
  • 国内刊号:32-1367/TN
  • 地址:南京市御道街29号
  • 电话:025-84892742
  • 传真:025-84892742
  • E-mail:sjcj@nuaa.edu.cn
  • 邮编:210016
基于维基百科的命名实体词义消歧方法研究
A Study of Word Sense Disambiguation Approach on Name Entities Based on Wikipedia
投稿时间:2014-09-12  最后修改时间:2014-10-25
DOI:
中文关键词:  词义消歧、命名实体、实体消歧、维基百科
英文关键词:Word Sense Disambiguation; Name Entity; Entity Disambiguation; Wikipedia
基金项目:
作者单位E-mail
徐佳俊 上海交通大学计算机科学与工程系 pily900714@gmail.com 
姚天昉 上海交通大学计算机科学与工程系 yao-tf@cs.sjtu.edu.cn 
摘要点击次数: 501
全文下载次数: 
中文摘要:
      词义消歧技术是计算机根据文本距离、上下文语境等特征来自动获取并确认词语的意义。词义歧义是指一词多义,即一个词在不同的上下文中有不同的词义,也称为歧义词。而词义消歧的目标就是确定文本中的歧义词的确切含义。命名实体歧义指的是一个命名实体指称项可对应到多个真实世界实体的问题。命名实体消歧任务与普通的词义消歧任务有很多相似之处,但是有其自身的难点:命名实体消歧目标难以确定、指称项多样性、指称项歧义性。命名实体消歧任务分为单语种命名实体消歧与多语种命名实体消歧。本文通过维基百科官方接口,获取了中英文维基百科数据备份。在算法方面,本文利用三个特征项:文本相似度、实体关联度及类别关联度对待消歧文本进行评分。并且为了解决中文维基百科知识库不足的问题,使用英文维基百科对其进行扩充。本文使用第二届CLP-SIGHAN 中文处理国际会议 (CLP-2012) 提供的中文人名消歧测试语料及网络上下载的新闻语料对本文的算法进行实验和分析,实验结果较为优秀。结果表明,本文的方法在命名实体消歧方面是可行且有效的。
英文摘要:
      Word Sense Disambiguation is a technology to achieve and confirm meaning of the words automatically by text distance and context of co-text. Word sense ambiguity means polysemy, a word expresses different sense under different co-text. Name Entity Ambiguous is a question that a name entity correspond multiple real entities, which we called entity concept. The name entity disambiguation and word sense disambiguation has a lot in common. But they have their own difficulties. The target of name entity disambiguation is hard to get, the name variation and the name ambiguity problems. In this thesis, we acquire Chinese and English Wikipedia data backups from official APIs. In algorithm aspect, we use three features to estimate disambiguating texts: text similarity, entity relational degree and category relational degree. And we add English Wikipedia pages to solve the lack of Chinese pages. After the introduction of the methods, we perform the experiments with the Chinese personal name disambiguation test corpus provided by the second CLP-SIGHAN joint conference on Chinese Language Processing (CLP-2012) and news corpus downloaded from the Internet. The experiments achieve nice results. The experiment results show that the proposed methods are feasible and effective in named entity disambiguation.
查看全文  查看/发表评论  下载PDF阅读器
关闭

Copyright @2010-2015《数据采集与处理》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892742      传真:025-84892742       E-mail:sjcj@nuaa.edu.cn

您是本站第897307位访问者 本站今日一共被访问94

技术支持:北京勤云科技发展有限公司