[发明专利]一种用于语音变形检测的深度残差网络结构在审
申请号: | 201910521871.0 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110211604A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 王泳;张梦鸽;赵雅珺 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 肖平安 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络结构 语音 短链接 卷积 卷积神经网络 变形检测 频谱特征 降采样 结构块 映射 残差 池化 非线性函数 尺寸特征 结果评价 时间维度 语音模型 原始语音 变形的 第一层 卷积核 连接层 时频 维度 伪装 变形 分类 检测 全局 | ||
本发明涉及一种用于语音变形检测的深度残差网络结构,其特征在于共50层,并在网络结构的卷积神经网络中加入短链接;该短链接即为在下一层的输入额外的加入上一层的特征映射,短链接的特征映射不增加额外的参数;所述网络结构采用四个最大池化,在第一层卷积层之后有四种针对不同尺寸特征图的结构块,网络结构卷积过程中,在每个结构块后进行一次降采样,降采样只在时频图的时间维度进行;而卷积神经网络在进行语音变形的频谱特征提取时,卷积核只在频谱特征维度进行卷积;所述网络结构最后加有全局均值池化层和全连接层后再经sigmoid非线性函数进行结果评价。本发明建立的检测变形语音模型,能更好的分类出语音是原始语音还是伪装语音。
技术领域
本发明属于语音识别中的变形语音识别领域,具体是涉及一种用于语音变形检测的深度残差网络结构。
背景技术
随着计算机及其它信息技术的发展。不少音频处理软件程序,如Audacity、CoolEdit、PRAAT、基于matlab工具的实时迭代谱图(Real-Time Iterative Spectrogram,RTIS)算法、通过语音变形,广泛应用于音频取证、娱乐、隐私保护等领域,这些软件产品的滥用也增加了基于语音的非法行为,如网上欺诈、语音支付、电话聊天等。人们很容易就可以在个人电脑或智能手机上把自己的录音伪装成另外的声音并发放出去,使得说话人的声音实时变化之后传输出去,这样接听方就无法听出说话人的身份。犯罪分子就可以轻松地利用这些工具伪装自己或他人的声音,从而欺骗自动说话人验证(automatic speakerverification,ASV)系统或隐藏说话人的真实身份,为社会带来严重且深远的安全问题。因此,检测语音是否经过变形是至关重要的。
目前,针对ASV系统的语音伪装研究层出不穷。欺骗性语音包括语音转换(VoiceConversion)、语音合成(Speech Synthesis)及重录语音等欺骗性语音很容易欺骗ASV系统,已经被很多研究人员证实了。虽然一些自动说话人验证研究团体正在提出相应的预防对策,但容易混淆真假语音的漏洞很大程度上仍然是未知的。说话人验证系统对不同欺骗攻击还存在一些漏洞,ASV系统的防攻击能力还有待进一提高。
而目前,一般是通过以下几种代表性的方式进行欺骗检测:
1)利用语音信号的线性预测残差提取相位特征进行欺骗检测的方法。(HanilciC.Speaker verification anti-spoofing using linear prediction residual phasefeatures[C],2017EUSIPCO)
2)Kamble等人提出了基于能量分离算法的瞬时频率余弦系数,用于检测真假语音(Kamble M.R,Patil H.A.Novel energy separation based instantaneous frequencyfeatures for spoof speech detection[C],2017EUSIPCO)
3)Janicki提出了利用线性预测(linear prediction)残差信号提取基于音频质量特征的算法。(Janicki A.Spoofing countermeasure based on analysis of linearprediction error[C],in Proc.INTERSPEECH,2015,pp.2077–2081)
4)Alam等人提出了一种基于无限脉冲响应常数q变换特征表示的欺骗检测算法。(Alam J,Kenny P.Spoofing detection employing infinite impulse response—constant Q transform-based feature representations[C],2017EUSIPCO)
以上1-4的算法都是运用传统人工提取特征,运用到的特征有相位特征、MFCC等,再运用GMM等模型训练网络,进行检测。传统算法提取特征过程比较复杂,且缺乏通用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910521871.0/2.html,转载请声明来源钻瓜专利网。