基于词典信息和网络百科的下位词获取
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:


Chinese Hyponymy Extraction Based on Dictionary and Encyclopedia Resources
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    对中文下位词自动抽取方法进行研究,提出一种基于词典信息和网络百科的下位词获取方法,旨在构建一个较为完善的上下位词语知识库。基于词典信息的抽取方法利用《中文概念词典》和《中国分类主题词表》中蕴含的格式化信息获取上下位关系。基于网络百科的抽取方法利用维基百科、百度百科和互动百科,分析百科网页地址和内容格式,利用正则式抽取下位词语。对获取到的下位词进行自动过滤和人工校对,实验表明,与NLP&CC 2012上下位关系评 测结果相比,本文方法取得较好效果。

    Abstract:

    Hyponymy, a kind of basic semantic relation between words, is widly used in areas, including text classification and information retrieval. Automatic extraction of such relation is an important issue in natural language processing. Two kinds of hyponymy extraction strategy, i.e., dictionary based strategy and encyclopedia basedstrategy are proposed to build a sophisticated hyponymy knowledge base. Chinese Concept Dictionary and Chinese Classied Subject Thesaurus are used as dictionary resources. Manual regex is introduced to extract hyponym from wikipedia,baidubaike and hudongbaike based on addresses of web pages. Extensive experimental evaluationdemonstrates that the proposed strategies outperform the NLP&CC 2012 evaluation results.

    参考文献
    相似文献
    引证文献
引用本文

宋文杰,周俊生,曲维光.基于词典信息和网络百科的下位词获取[J].数据采集与处理,2014,29(5):821-827

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2014-10-20