[发明专利]虚假音频检测在审

申请号：	202180080979.6	申请日：	2021-11-11
公开（公告）号：	CN116547752A	公开（公告）日：	2023-08-04
发明（设计）人：	乔尔·肖尔;阿兰纳·福斯特·斯洛克姆	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L25/30	分类号：	G10L25/30
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚假音频检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种方法(600)包括：

在数据处理硬件(103)处接收表征由用户设备(102)获得的语音的音频数据(120)；

由所述数据处理硬件(103)使用经训练的自监督模型(210)生成多个音频特征向量(212)，所述多个音频特征向量(212)中的每个音频特征向量表示部分的所述音频数据(120)的音频特征；

由所述数据处理硬件(103)使用浅鉴别器模型(222)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)的对应音频特征，生成指示所述音频数据(120)中合成语音的存在的得分(224)；

由所述数据处理硬件(103)确定所述得分(224)是否满足合成语音检测阈值；以及

当所述得分(224)满足所述合成语音检测阈值时，由所述数据处理硬件(103)确定由所述用户设备(102)获得的所述音频数据(120)中的所述语音包括合成语音。

2.根据权利要求1所述的方法(600)，其中，所述浅鉴别器模型(222)包括智能池化层(310)。

3.根据权利要求1或2所述的方法(600)，还包括：

由所述数据处理硬件(103)使用所述浅鉴别器模型(222)的所述智能池化层(310)，基于所述多个音频特征向量(212)中的每个音频特征向量(212)生成单个最终音频特征向量(212)，

其中，生成指示所述音频数据(120)中所述合成语音的存在的所述得分(224)是基于所述单个最终音频特征向量(212)。

4.根据权利要求3所述的方法(600)，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的平均。

5.根据权利要求3所述的方法(600)，其中，所述单个最终音频特征向量(212)包括所述多个音频特征向量(212)中的每个音频特征向量(212)的聚合。

6.根据权利要求3-5中任一项所述的方法(600)，其中，所述浅鉴别器模型(222)包括全连接层，所述全连接层被配置为接收所述单个最终音频特征向量(212)作为输入并生成所述得分(224)作为输出。

7.根据权利要求1-6中任一项所述的方法(600)，其中，所述浅鉴别器模型(222)包括逻辑回归模型、线性鉴别分析模型或随机森林模型中的一个。

8.根据权利要求1-7中任一项所述的方法(600)，其中，在仅包括源于人类语音的训练样本(410)的第一训练数据集上训练所述经训练的自监督模型(210)。

9.根据权利要求8所述的方法(600)，其中，在包括合成语音的训练样本(410)的第二训练数据集上训练所述浅鉴别器模型(222)，所述第二训练数据集小于所述第一训练数据集。

10.根据权利要求1-9中任一项所述的方法(600)，其中，所述数据处理硬件(103)驻留在所述用户设备(102)上。

11.根据权利要求1-10中任一项所述的方法(600)，其中，所述经训练的自监督模型(210)包括从更大的经训练的自监督模型(210)导出的表示模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202180080979.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载