[发明专利]使用端到端模型的讲话者分割在审
申请号: | 201980033104.3 | 申请日: | 2019-04-15 |
公开(公告)号: | CN112805780A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 王泉;亚什·舍斯;伊格纳西奥·洛佩斯·莫雷诺;利·万 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 端到端 模型 讲话 分割 | ||
1.一种讲话者分割的方法,所述方法由一个或多个处理器实现并且包括:
为对应音频数据生成音频数据帧序列;
对于所述音频数据帧中的每一个,并且在所述序列中:
将所述音频数据帧的帧特征作为输入应用于所训练的递归神经网络RNN模型,以及
使用所训练的RNN模型来处理所述音频数据帧的所述帧特征以生成所训练的RNN模型的输出,所述输出包括多个置换不变的讲话者标签中的每一个的对应概率;
对于多个所述音频数据帧中的每一个,基于所述对应概率将所述多个讲话者标签中的对应一个指配给所述音频数据帧;
将所述讲话者标签及讲话者标签的指配的指示传送到至少一个附加组件,以用于基于所述讲话者标签进一步处理所述音频数据。
2.根据权利要求1所述的方法,其中,所训练的RNN模型包括长短期记忆(LSTM)层。
3.根据权利要求2所述的方法,其中,所训练的RNN模型进一步包括仿射层作为最终层,所述仿射层具有符合所述多个讲话者标签的输出维度。
4.根据前述权利要求中的任一项所述的方法,其中,所训练的RNN模型被训练成使得能够检测不同的人类讲话者并且使得能够检测缺失任何人类讲话者。
5.根据权利要求4所述的方法,进一步包括:
确定所述多个讲话者标签中的给定讲话者标签对应于所述缺失任何人类讲话者,其中,确定所述给定讲话者标签对应于所述缺失任何人类讲话者包括:
对具有所指配的给定讲话者标签的所述音频数据帧中的一个或多个音频数据帧执行进一步处理,以确定所述音频数据帧中的所述一个或多个音频数据帧每一个包括静默或背景噪声。
6.根据权利要求5所述的方法,其中,将所述讲话者标签及所述讲话者标签的指配的指示传送到所述至少一个附加组件以用于基于所述讲话者标签进一步处理所述音频数据包括:
在所述讲话者标签及所述讲话者标签的指配的指示中,识别所述音频数据的包括静默或背景噪声的部分。
7.根据前述权利要求中的任一项所述的方法,其中,所述音频数据帧中的每一个的所述帧特征包括所述音频数据帧的梅尔频率倒谱系数。
8.根据前述权利要求中的任一项所述的方法,进一步包括:
经由一个或多个网络接口接收所述音频数据,作为利用应用编程接口传送的语音处理请求的一部分;
其中,生成所述音频数据帧序列、应用所述音频数据帧的帧特征、处理所述音频数据帧的帧特征以及将所述讲话者标签指配给所述音频数据帧是响应于接收到所述语音处理请求而执行的;以及
其中,传送所述讲话者标签及所述讲话者标签的指配的指示是经由所述网络接口中的一个或多个,并且是响应于所述语音处理请求。
9.根据前述权利要求中的任一项所述的方法,
其中,所述音频数据是基于来自客户端设备的一个或多个麦克风的输出的流音频数据,其中,所述客户端设备包括用于与自动助理对接的自动助理接口,并且其中,所述流音频数据是响应于经由所述客户端设备对所述自动助理的调用而接收的;以及
其中,将所述讲话者标签及所述讲话者标签的指配的指示传送到至少一个附加组件以用于基于所述讲话者标签进一步处理所述音频数据包括:将所述讲话者标签及所述讲话者标签的指配的指示传送到所述自动助理的自动助理组件。
10.根据权利要求9所述的方法,其中,所述自动助理的自动助理组件是自动语音辨识ASR组件,所述自动语音辨识ASR组件处理所述音频数据以生成与所述音频数据相对应的文本。
11.根据权利要求10所述的方法,其中,所述ASR组件利用所述讲话者标签来识别所述音频数据中的讲话者之间的转变,并且基于所述转变,更改对跟随在所述转变之后的所述音频数据的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033104.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 用户语音简档管理-202180080295.6
- S·J·朴;S·穆恩;金莱轩;E·维瑟 - 高通股份有限公司
- 2021-09-28 - 2023-08-11 - G10L17/04
- 一种设备包括处理器,其被配置为在第一功率模式下确定音频流是否对应于至少两个说话者的语音。处理器被配置为基于确定音频流对应于至少两个说话者的语音,在第二功率模式下分析音频流的音频特征数据以生成分段结果。处理器被配置为执行对多个用户语音简档与说话者同质音频段的多个音频特征数据集合中的音频特征数据集合的比较,以确定音频特征数据集合是否与用户语音简档中的任何一者相匹配。处理器被配置为基于确定音频特征数据集合与多个用户语音简档中的任何一者都不匹配,基于多个音频特征数据集合来生成用户语音简档。
- 评估说话者识别性能-202180077688.1
- 杰森·佩莱卡诺斯;赵璞升;黄易玲;王泉 - 谷歌有限责任公司
- 2021-10-20 - 2023-07-18 - G10L17/04
- 一种用于评估验证模型(146)的方法(300)包括接收第一组验证结果和第二组验证结果(148),其中每个验证结果指示主模型或替代模型是否将用户(10)的身份验证为注册用户。该方法进一步包括标识该第一组验证结果和该第二组中包括性能度量(212)的每个验证结果;基于在该第一组中标识的包括性能度量的多个验证结果来确定主模型的第一得分(222);以及基于在该第二组中标识的包括性能度量的多个验证结果来确定替代模型的第二得分。该方法进一步包括基于该第一得分和该第二得分来确定该替代模型的验证能力是否优于该主模型的验证能力。
- 嵌入水印的语音认证系统及其方法-202080098205.1
- 全昰璘 - 扶植-AI有限公司
- 2020-07-17 - 2022-11-25 - G10L17/04
- 本发明提供一种语音认证系统。根据本发明的一实施例的语音认证系统包括:语音采集部,采集将说话者的语音数字化的语音信息;学习模型服务器,基于采集的所述说话者的语音信息生成语音图像,使深度神经网络(Deep Neural Network,DNN)模型学习所述语音图像,并提取所述语音图像的特征向量;水印服务器,基于所述特征向量生成水印(watermark),将所述水印和个别信息嵌入所述语音图像或语音转换数据;以及认证服务器,基于所述特征向量生成私钥(private key),并且基于认证结果确定是否提取所述水印和所述个别信息。
- 完全监督的说话者日志化-201980088275.6
- 王崇;张奥南;王泉;朱祯耀 - 谷歌有限责任公司
- 2019-11-12 - 2021-08-17 - G10L17/04
- 一种方法(500)包括接收语音话语(120)并且将所述语音话语分段成多个分段(220)。对于所述语音话语的每个分段,该方法还包括从所述分段提取说话者判别嵌入(240)并且使用被配置成接收所提取的说话者判别嵌入作为特征输入的概率生成模型(300)来预测关于所述分段的可能说话者(262)的概率分布。所述概率生成模型在训练语音话语的语料库上被训练,每个训练语音话语被分段成多个训练分段(220T)。每个训练分段包括对应的说话者判别嵌入和对应的说话者标签(250)。该方法还包括基于对应的分段的可能说话者的所述概率分布来将说话者标签指配给所述语音话语的每个分段。
- 使用端到端模型的讲话者分割-201980033104.3
- 王泉;亚什·舍斯;伊格纳西奥·洛佩斯·莫雷诺;利·万 - 谷歌有限责任公司
- 2019-04-15 - 2021-05-14 - G10L17/04
- 描述了用于训练和/或利用端到端讲话者分割模型的技术。在各种实施方式中,该模型是递归神经网络(RNN)模型,诸如包括至少一个诸如长短期记忆(LSTM)层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型,并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外,端到端讲话者分割模型可以是序列到序列模型,其中序列可以具有可变长度。因此,该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。
- 说话人识别系统中的注册-201880073213.3
- J·P·莱索;B·霍普森 - 思睿逻辑国际半导体有限公司
- 2018-11-13 - 2020-06-26 - G10L17/04
- 在说话人识别系统中对用户进行注册的方法,包括接收所述用户的话语的样本。由所述用户的话语的样本生成试验声纹。获得与所述试验声纹有关的得分。仅当所述得分满足一预定标准时,才基于所述试验声纹对用户进行注册。
- 对用户简档的声控管理-201780094807.8
- 沃洛佳·格兰恰诺夫;哈拉尔德·波布洛斯;哈达尔·格科特;托梅·阿米亚兹 - 瑞典爱立信有限公司
- 2017-09-11 - 2020-05-01 - G10L17/04
- 一种对用户简档的管理包括:针对至少一个说话者模型中的每个说话者模型计算置信度,该置信度表示说话者模型代表音频片段簇的说话者的概率。如果针对说话者模型计算出的置信度表示高于目标概率的概率,则基于指派给音频片段簇的用户偏好来更新与说话者模型相关联的用户简档。实施例在声控情境中实现了有效的用户简档管理,但是不需要任何专用的注册会话来训练说话者模型。
- 使用所选择的群组样本子集来训练分类器-201480076469.1
- T·伯克莱特;A·马雷克 - 英特尔公司
- 2014-03-28 - 2020-03-27 - G10L17/04
- 在此公开了用于使用所选择的群组样本子集来训练分类器的各种系统、装置和方法。在示例中,接收表示目标类别的目标超向量集合,并且接收表示群组类别的群组超向量集合。从对应群组超向量到对应目标超向量计算距离度量,并且基于所述计算的距离度量来选择适当的群组超向量子集。所述目标超向量集合和所述选择的适当的群组超向量子集用于训练分类器。在此描述的进一步示例描述了使用所选择的群组样本子集来训练分类器如何可以用于提高语音生物识别系统的性能并且降低语音生物识别系统中的资源消耗。
- 用于说话者验证的神经网络-201680028481.4
- 乔治·海戈尔德;萨米·本希奥;伊格纳西奥·洛佩斯·莫雷诺 - 谷歌有限责任公司
- 2016-07-27 - 2018-04-17 - G10L17/04
- 本文大体上描述与说话者验证有关的系统、方法、装置、和其它技术,包括(i)训练用于说话者验证模型的神经网络,(ii)在客户端装置处登记用户,以及(iii)基于所述用户的声音的特点来验证用户的身份。一些实施方式包括计算机实现的方法。所述方法可以包括在计算装置处接收表征所述计算装置的用户的话语的数据。可以使用所述计算装置上的神经网络在所述计算装置处针对所述话语生成说话者表示。可以基于多个训练样本来训练神经网络,所述多个训练样本中的每个(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)被标记为匹配说话者样本或者非匹配说话者样本。
- 专利分类