一种轻量级全频带语音增强网络模型
作者:
作者单位:

南京大学声学研究所,近代声学教育部重点实验室,南京210093

作者简介:

通讯作者:

基金项目:

国家自然科学基金(12274221)。


A Light-Weight Full-Band Speech Enhancement Model
Author:
Affiliation:

Key Laboratory of Modern Acoustics, Institute of Acoustics, Nanjing University, Nanjing 210093, China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    基于深度神经网络的全频带语音增强系统面临着计算资源需求高以及语音在各频段分布不平衡的困难。本文提出了一种轻量级全频带网络模型。该模型在双路径卷积循环网络模型的基础上,利用可学习的频谱压缩映射对高频段频谱信息进行有效压缩,同时利用多头注意力机制对频域的全局信息进行建模。实验结果表明本文模型只需0.89×106的参数即可实现有效的全频带语音增强,验证了本文模型的有效性。

    Abstract:

    Deep neural network based full-band speech enhancement systems face challenges of high demand of computational resources and imbalanced frequency distribution. In this paper, a light-weight full-band model is proposed based on dual path convolutional recurrent network with two dedicated strategies, i.e., a learnable spectral compression mapping for more effective high-band spectral information compression, and the utilization of the multi-head attention mechanism for more effective modeling of the global spectral pattern. Experiments validate the efficacy of the proposed strategies and show that the proposed model achieves competitive performance with only 0.89×106 parameters.

    参考文献
    相似文献
    引证文献
引用本文

胡沁雯,侯仲舒,乐笑怀,卢晶.一种轻量级全频带语音增强网络模型[J].数据采集与处理,2023,38(2):274-282

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2022-07-07
  • 最后修改日期:2022-08-12
  • 录用日期:
  • 在线发布日期: 2023-03-25