一种新型朴素贝叶斯文本分类算法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:

国家重点实验室开放课题(SKLSE2012-09-30)资助项目;山西省自然科学基金(2013-011015-2)资助项目;太原理工大学“语言信息处理学科建设和研究”专项项目资助。


New Naice Bayes Text Classification Algorithm
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬”(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。

    Abstract:

    According to the phenomena that the calculation of prior probability in text classification is time-consuming and has little effect on the classification result,and the accuracy loss of posterior probability affects the accuracy of classification, the classical naive Bayes algorithm is improved and a new text classification algorithm is proposed which restrains the effect of prior probability and amplifies the effect of posterior probability. In the new algorithm, the calculation of prior probability is removed and an amplification factor is added to the calculation of posterior probability. The experiments prove that removing the calculation of prior probability in text classification can accelerate the classification speed and has little effect on the classification accuracy, and adding an amplification factor in the calculation of posterior probability can reduce the effect of error propagation and improve the classification accuracy.

    参考文献
    相似文献
    引证文献
引用本文

邸鹏 段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2014-03-14