中文核心期刊
中国科技论文统计源期刊
国际刊号:1004-9037
国内刊号:32-1367/TN
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式
  • 主管:中国科学技术协会
  • 主办:南京航空航天大学
  •           中国电子学会
  • 国际刊号:1004-9037
  • 国内刊号:32-1367/TN
  • 地址:南京市御道街29号
  • 电话:025-84892742
  • 传真:025-84892742
  • E-mail:sjcj@nuaa.edu.cn
  • 邮编:210016
曾金芳,李友明,杨恢先,张钰,胡雅欣.基于多级残差网络的环境声音分类方法[J].数据采集与处理,2021,36(5):960-968
基于多级残差网络的环境声音分类方法
Environmental Sound Classification Method Based on Multilevel Residual Network
投稿时间:2020-11-25  修订日期:2021-02-28
DOI:10.16337/j.1004-9037.2021.05.011
中文关键词:  环境声音分类  多级残差网络  时标压扩  基频压扩
英文关键词:environmental sound classification  multilevel residual network  time stretch  baseband stretch
基金项目:国家自然科学基金(62071411)资助项目;湖南省自然科学基金(2018JJ3486)资助项目。
作者单位邮编
曾金芳 湘潭大学物理与光电工程学院湘潭 411105 411105
李友明 湘潭大学物理与光电工程学院湘潭 411105 411105
杨恢先 湘潭大学物理与光电工程学院湘潭 411105 411105
张钰 湘潭大学物理与光电工程学院湘潭 411105 411105
胡雅欣 湘潭大学物理与光电工程学院湘潭 411105 411105
摘要点击次数: 83
全文下载次数: 120
中文摘要:
      为了对环境声音进行更好的识别和分类,提出了基于多级残差网络(Multilevel residual network, Mul-EnvResNet)的环境声音分类方法。对声音事件进行时标和基频压扩之后,提取其梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs),以及它们的差分作为特征参数送入Mul-EnvResNet对声音事件进行分类。实验数据集采用ESC-50,将Mul-EnvResNet模型与端到端的卷积神经网络(EnvNet)、基于注意力机制的循环神经网络(Attention based convolutional recurrent neural network, ACRNN),以及受限卷积玻尔兹曼机的无监督滤波器组模型(Convolutional restricted Boltzmann machine, ConvRBM)进行对比实验。实验结果表明, Mul-EnvResNet取得了89.32%的最佳分类准确率,相较上述3种模型在分类准确率上分别有18.32%、3.22%、2.82%的提升,相较于其他的声音分类方法也均有明显的优势。
英文摘要:
      To better identify and classify environmental sound, a multilevel residual network (Mul-EnvResNet) is proposed for environmental sound classification. After time stretch and pitch shift for sound events, the Mel-frequency cepstral coefficients (MFCCs) and their deltas are extracted as feature parameters and sent into the Mul-EnvResNet to classify sound events. The experimental data set uses ESC-50, Mul-EnvResNet is compared with the end-to-end convolutional neural network (EnvNet), the attention based convolutional recurrent neural network (ACRNN) and the unsupervised filterbank learning using convolutional restricted Boltzmann machine (ConvRBM). The experimental results show that, Mul-EnvResNet achieves the best accuracy rate of 89.32% in terms of classification accuracy, compared with the above three models, the classification accuracy has been improved by 18.32%, 3.22% and 2.82%, respectively, which also has obvious advantages compared with other sound classification methods.
查看全文  HTML  查看/发表评论

Copyright @2010-2015《数据采集与处理》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892742      传真:025-84892742       E-mail:sjcj@nuaa.edu.cn

您是本站第2372048位访问者 本站今日一共被访问541

技术支持:北京勤云科技发展有限公司