[发明专利]虚假音频检测在审
申请号: | 202180080979.6 | 申请日: | 2021-11-11 |
公开(公告)号: | CN116547752A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 乔尔·肖尔;阿兰纳·福斯特·斯洛克姆 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚假 音频 检测 | ||
1.一种方法(600)包括:
在数据处理硬件(103)处接收表征由用户设备(102)获得的语音的音频数据(120);
由所述数据处理硬件(103)使用经训练的自监督模型(210)生成多个音频特征向量(212),所述多个音频特征向量(212)中的每个音频特征向量表示部分的所述音频数据(120)的音频特征;
由所述数据处理硬件(103)使用浅鉴别器模型(222),基于所述多个音频特征向量(212)中的每个音频特征向量(212)的对应音频特征,生成指示所述音频数据(120)中合成语音的存在的得分(224);
由所述数据处理硬件(103)确定所述得分(224)是否满足合成语音检测阈值;以及
当所述得分(224)满足所述合成语音检测阈值时,由所述数据处理硬件(103)确定由所述用户设备(102)获得的所述音频数据(120)中的所述语音包括合成语音。
2.根据权利要求1所述的方法(600),其中,所述浅鉴别器模型(222)包括智能池化层(310)。
3.根据权利要求1或2所述的方法(600),还包括:
由所述数据处理硬件(103)使用所述浅鉴别器模型(222)的所述智能池化层(310),基于所述多个音频特征向量(212)中的每个音频特征向量(212)生成单个最终音频特征向量(212),
其中,生成指示所述音频数据(120)中所述合成语音的存在的所述得分(224)是基于所述单个最终音频特征向量(212)。
4.根据权利要求3所述的方法(600),其中,所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的平均。
5.根据权利要求3所述的方法(600),其中,所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的聚合。
6.根据权利要求3-5中任一项所述的方法(600),其中,所述浅鉴别器模型(222)包括全连接层,所述全连接层被配置为接收所述单个最终音频特征向量(212)作为输入并生成所述得分(224)作为输出。
7.根据权利要求1-6中任一项所述的方法(600),其中,所述浅鉴别器模型(222)包括逻辑回归模型、线性鉴别分析模型或随机森林模型中的一个。
8.根据权利要求1-7中任一项所述的方法(600),其中,在仅包括源于人类语音的训练样本(410)的第一训练数据集上训练所述经训练的自监督模型(210)。
9.根据权利要求8所述的方法(600),其中,在包括合成语音的训练样本(410)的第二训练数据集上训练所述浅鉴别器模型(222),所述第二训练数据集小于所述第一训练数据集。
10.根据权利要求1-9中任一项所述的方法(600),其中,所述数据处理硬件(103)驻留在所述用户设备(102)上。
11.根据权利要求1-10中任一项所述的方法(600),其中,所述经训练的自监督模型(210)包括从更大的经训练的自监督模型(210)导出的表示模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180080979.6/1.html,转载请声明来源钻瓜专利网。