[发明专利]一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法有效
申请号: | 201910085725.8 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109872720B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 王泳;赵雅珺;张梦鸽 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L17/06;G10L17/18 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 肖平安 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法,具体涉及语音检测算法领域,通过将语音时频图输入至算法模型内,算法模型包含七层,每层包含一个卷积层与一个池化层,卷积层的输出通过线性整流函数,并在层与层之间加入残差连接,最后通过全局池化提取最终特征,并通过sigmoid预测检测结果。本发明采用时频图作为本发明中网络的数据输入形式,相对于直接输入语音数据,时频图对于重录设备引入的特征信息有相对密集的分布,更有利于神经网络特征提取,从而加快训练,提高精度。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 不同 场景 语音 检测 算法 | ||
【主权项】:
1.一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法,其特在于,具体包括以下步骤:a、使用录音设备采集原始语音,并经DA/AD变换,获得重录语音;b、原始语音在变换过程中会产生失真,通过失真模型计算原始语音的失真数据,其中,失真模型表达式为:
y(t)是重录语音,x(t)是原始语音,λ是幅值变换因子,α是时间轴线性伸缩因子,η是叠加噪声;对应的频域变化表达式:
Y(jω)、X(jω)、N(jω)分别为y(t)、x(t)、η的频域表示,对于固定的录音设备,其特征是非常稳定的,即λ、α是常数;c、重录语音由短时傅里叶变换生产语音时频图;d、语音时频图输入至算法模型内,算法模型包含七层,每层包含一个卷积层与一个池化层,卷积层的输出通过线性整流函数,并在层与层之间加入残差连接,最后通过全局池化提取最终特征,并通过sigmoid预测检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910085725.8/,转载请声明来源钻瓜专利网。