[发明专利]一种基于自监督学习的语音鉴伪方法、装置及存储介质有效
申请号: | 202211701458.0 | 申请日: | 2022-12-29 |
公开(公告)号: | CN115662441B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 郑榕;孟凡芹 | 申请(专利权)人: | 北京远鉴信息技术有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L19/24;G10L21/0332 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 语音 方法 装置 存储 介质 | ||
1.一种基于自监督学习的语音鉴伪方法,其特征在于,所述语音鉴伪方法包括:
获取待鉴伪语音;
将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中,对所述待鉴伪语音进行波形增强处理,确定出波形增强后的待鉴伪语音;
将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中,确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量;
针对于每个语音片段的多个语音特征向量,将该语音片段的多个所述语音特征向量输入至所述语音鉴伪模型的自监督学习处理网络层之中,对多个语音特征向量进行叠加处理,得到叠加后的语音特征向量,对所述叠加后的语音特征向量进行特征处理,确定出该语音片段的目标特征向量;
将多个所述目标特征向量输入至所述语音鉴伪模型的鉴伪网络层之中,进行鉴伪处理,确定出所述待鉴伪语音是否为虚假语音;
所述自监督学习前端网络层还包括多层卷积编码单元,所述将所述波形增强后的待鉴伪语音输入至所述语音鉴伪模型的自监督学习前端网络层之中,确定出所述波形增强后的待鉴伪语音的每一语音片段在所述自监督学习前端网络层之中各层变形器编码单元的语音特征向量,包括:
对所述波形增强后的待鉴伪语音进行语音分段处理,确定出多个所述语音片段;
将每个所述语音片段输入至第一层所述卷积编码单元之中,对每个所述语音片段进行卷积处理,确定出每个所述语音片段对应的第一语音特征向量;
将每个所述第一语音特征向量输入至第二层所述卷积编码单元之中,直至所述卷积编码单元为最后一层所述卷积编码单元时,确定出每个所述语音片段对应的第二语音特征向量;
将每个所述语音片段对应的第二语音特征向量输入至第一层所述变形器编码单元之中,对每个所述第二语音特征向量进行注意力计算,确定出每个所述语音片段的第三语音特征向量;
将每个所述第三语音特征向量输入至第二层所述变形器编码单元之中,直至所述变形器编码单元为最后一层所述变形器编码单元时,抽取出各个所述变形器编码单元相对应语音片段的多个语音特征向量。
2.根据权利要求1所述的语音鉴伪方法,其特征在于,所述将所述待鉴伪语音输入至预先训练好的语音鉴伪模型的波形增强网络层之中,对所述待鉴伪语音进行波形增强处理,确定出波形增强后的待鉴伪语音,包括:
对所述待鉴伪语音进行语音格式的转换,确定出所述波形增强后的待鉴伪语音;或者,
基于高档码率、中档码率以及低档码率中的任意一种码率对所述待鉴伪语音进行波形增强处理,确定出所述波形增强后的待鉴伪语音;或者,
基于宽带编码译码器或窄带编码译码器对所述待鉴伪语音进行波形增强处理,确定出所述波形增强后的待鉴伪语音。
3.根据权利要求1所述的语音鉴伪方法,其特征在于,所述对多个语音特征向量进行叠加处理,得到叠加后的语音特征向量,包括:
将多个所述语音特征向量输入至所述自监督学习处理网络层的多层抽取叠加单元之中,将每个所述语音特征向量与相对应的变形器编码单元的权重进行相乘,确定出多个第四语音特征向量;
将多个所述第四语音特征向量进行加和,确定出所述叠加后的语音特征向量。
4.根据权利要求1所述的语音鉴伪方法,其特征在于,所述对所述叠加后的语音特征向量进行特征处理,确定出该语音片段的目标特征向量,包括:
将所述叠加后的语音特征向量输入至所述自监督学习处理网络层的表征向量降维单元,对所述叠加后的语音特征向量进行降维处理,确定出降维语音特征向量;
将所述降维语音特征向量输入至所述自监督学习处理网络层的时间循环神经单元,对所述降维语音特征向量进行声音特征提取,确定出声音特征向量;
将所述声音特征向量输入至所述自监督学习处理网络层的池化聚合单元之中,对所述声音特征向量进行池化处理,确定出池化后的声音特征向量;
将所述池化后的声音特征向量输入至所述自监督学习处理网络层的全连接单元,对所述池化后的声音特征向量进行维度转换,确定出与预设维度相符合的语音片段的所述目标特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司,未经北京远鉴信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211701458.0/1.html,转载请声明来源钻瓜专利网。