中文核心期刊
中国科技论文统计源期刊
国际刊号:1004-9037
国内刊号:32-1367/TN
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式
  • 主管:中国科学技术协会
  • 主办:南京航空航天大学
  •           中国电子学会
  • 国际刊号:1004-9037
  • 国内刊号:32-1367/TN
  • 地址:南京市御道街29号
  • 电话:025-84892742
  • 传真:025-84892742
  • E-mail:sjcj@nuaa.edu.cn
  • 邮编:210016
刘家银,印杰,牛博威,诸葛程晨,贺海辰.海量网站中博彩类违法网站的捕获方法[J].数据采集与处理,2021,36(5):1050-1061
海量网站中博彩类违法网站的捕获方法
Capture Methods of Gambling Related Illegal Websites in Massive Websites
投稿时间:2020-10-09  修订日期:2021-01-20
DOI:10.16337/j.1004-9037.2021.05.020
中文关键词:  在线博彩  网站检测  自然语言处理  决策级融合  深度学习
英文关键词:online gambling  website detection  natural language processing  decision level fusion  deep learning
基金项目:江苏省公安厅科技研究(2020KX008)资助项目;江苏省高等学校自然科学基金(19KJB510022)资助项目;江苏警官学院高层次引进人才科研启动基金资助项目。
作者单位邮编
刘家银 江苏警官学院计算机信息与网络安全系南京 210031
江苏警官学院江苏省电子数据取证分析工程研究中心南京 210031
江苏警官学院江苏省公安厅数字取证重点实验室 南京 210031 
210031
印杰 江苏警官学院计算机信息与网络安全系南京 210031
江苏警官学院江苏省电子数据取证分析工程研究中心南京 210031
江苏警官学院江苏省公安厅数字取证重点实验室 南京 210031 
210031
牛博威 江苏省公安厅网络安全保卫总队南京 210024 210024
诸葛程晨 江苏警官学院计算机信息与网络安全系南京 210031
江苏警官学院江苏省电子数据取证分析工程研究中心南京 210031
江苏警官学院江苏省公安厅数字取证重点实验室 南京 210031 
210031
贺海辰 南京市公安局大数据中心南京 210005 210005
摘要点击次数: 77
全文下载次数: 113
中文摘要:
      针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力。实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性。
英文摘要:
      Aiming at the problem of detecting illegal gambling websites in massive websites, this paper proposes a classification method based on BERT-BiLSTM and multi-classifier decision-level fusion. This method improves the classification performance by adopting the following steps. Firstly, it extracts the textual information considered with high priority, i.e., meta information in HTML head and hyperlink titles on a web page, to enhance the richness of textual features. Secondly, a novel text classification model based on BERT-BiLSTM is designed, and it is proved superior in learning better sentence feature representatives and boosting performance. At last, the decision-level fusion is performed on the classification results from multiple dimensions (i.e., website title, keywords, and page text) to further improve the performance and robustness of the entire system. Moreover, a variety of strategies generating suspicious domain names are used to improve the ability to actively detect illegal websites. Experimental results and running results in real cyberspace demonstrate the effectiveness of the proposed method.
查看全文  HTML  查看/发表评论

Copyright @2010-2015《数据采集与处理》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892742      传真:025-84892742       E-mail:sjcj@nuaa.edu.cn

您是本站第2371915位访问者 本站今日一共被访问449

技术支持:北京勤云科技发展有限公司