首页  |  期刊简介  |  稿件审稿流程  |  学术道德规范  |  编委会  |  征订启事  |  联系我们  |  English
中文核心期刊
中国科技论文统计源期刊
国际刊号:1004-9037
国内刊号:32-1367/TN
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式
  • 主管:中国科学技术协会
  • 主办:南京航空航天大学
  •           中国电子学会
  • 国际刊号:1004-9037
  • 国内刊号:32-1367/TN
  • 地址:南京市御道街29号
  • 电话:025-84892742
  • 传真:025-84892742
  • E-mail:sjcj@nuaa.edu.cn
  • 邮编:210016
郑琳琳,张雄伟,孙蒙,李嘉康,张星昱.基于i-vector的电子伪装语音鲁棒还原方法研究[J].数据采集与处理,2020,35(5):880-891
基于i-vector的电子伪装语音鲁棒还原方法研究
Noise Robust Restoration of Electronic Disguised Voices Based on i-vector
投稿时间:2020-01-09  修订日期:2020-05-16
DOI:10.16337/j.1004-9037.2020.05.009
中文关键词:  电子伪装语音  伪装因子估计  自动说话人确认  噪声鲁棒性
英文关键词:electronic voice disguise  disguising factor  automatic speaker verification  noise robustness
基金项目:国家自然科学基金(61471394,62071484)资助项目;江苏省优秀青年基金(BK20180080)资助项目。
作者单位邮编
郑琳琳 陆军工程大学指挥控制工程学院南京210007 210007
张雄伟 陆军工程大学指挥控制工程学院南京210007 210007
孙蒙 陆军工程大学指挥控制工程学院南京210007 210007
李嘉康 陆军工程大学指挥控制工程学院南京210007 210007
张星昱 陆军工程大学指挥控制工程学院南京210007 210007
摘要点击次数: 106
全文下载次数: 58
中文摘要:
      语音的电子伪装是指采用变声设备或语音处理软件改变说话人的个性特征,以达到故意隐藏该说话人身份的目的。电子伪装语音还原是指通过技术手段将伪装语音变回原声,这对基于语音的身份鉴别有重要意义。本文将频域和时域伪装语音的还原问题抽象为伪装因子的估计问题,通过基于i-vector的自动说话人确认方法估计伪装因子,并引入对称变换进一步提高估计效果。该方法借助于i-vector的噪声鲁棒性,提高了真实含噪场景下伪装因子的估计精度,从而改进了噪声条件下电子伪装语音的还原效果。在干净语音库TIMIT上训练i-vector并在含噪语音库VoxCeleb1上对本文方法进行测试,结果表明,伪装因子估计的错误率从基线系统的9.19%降低为4.49%,还原语音在自动说话人确认等错误率和听觉感知方面也取得了提升。
英文摘要:
      Electronic voice disguise refers to hiding the identity of a speaker by voice changing equipment or voice processing software. The restoration of disguised voice refers to changing it back to its original version, which is of great significance for speaker identification. This paper first models the restoration of disguised voices as the estimation of disguising factors in both frequency and time domains. The estimation of disguising factor is made by automatic speaker verification using i-vector. Symmetric transformation is proposed to improve the performance on parameter estimation. By virtue of the noise robustness of i-vector, the proposed method improves the estimation accuracy of the disguising factor in the real noise-containing scene, thereby improving noise robust restoration effect of electronic disguised voice. Evaluation results on noisy speech library VoxCeleb1 of the trained model on clean speech library TIMIT demonstrated good performance of the approach by reducing the error rate from 9.19% to 4.49%. The quality of the restored voice is also improved in the aspects of automatic speaker verification and auditory perception.
查看全文  HTML  查看/发表评论

Copyright @2010-2015《数据采集与处理》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892742      传真:025-84892742       E-mail:sjcj@nuaa.edu.cn

您是本站第1856942位访问者 本站今日一共被访问83

技术支持:北京勤云科技发展有限公司