[发明专利]基于神经网络的语音处理有效
申请号: | 201580053898.1 | 申请日: | 2015-10-01 |
公开(公告)号: | CN107112006B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | A·施特尔克;M·斯拉尼;S·H·耶拉 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L17/02;G10L17/18 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 语音 处理 | ||
1.一种语音系统,包括:
特征提取器,被配置为接收指示语音信号的语音信号数据并且从所述语音信号提取特征集;
特征应用系统,被配置为将从神经网络的输入和所述神经网络的瓶颈层之间的权重矩阵提取的权重集应用于所述特征集,以将所述特征集变换成导出特征集;以及
编码器,被配置为基于所述导出特征集来生成指示所述语音信号的特性的语音处理结果;
其中所述特征应用系统包括:
特征组合系统,被配置为组合来自所述特征应用系统的所述导出特征集与来自所述语音信号的所述特征集以获得特征的加权组合,并且其中所述编码器被配置为基于所述特征的加权组合来生成所述语音处理结果;并且其中
所述语音信号数据是表示来自多个不同说话者的语音的语音信号数据,并且其中所述编码器通过基于所述导出特征集将所述语音信号数据的部分聚类成簇来生成所述语音处理结果。
2.根据权利要求1所述的语音系统,其中所述特征应用系统包括:
变换系统,被配置为将所述权重集应用于所述特征集,以将所述特征集变换成所述导出特征集。
3.根据权利要求1所述的语音系统,其中所述编码器通过基于所述导出特征集将所述语音信号数据归因于不同说话者来生成所述语音处理结果。
4.根据权利要求3所述的语音系统,其中所述编码器基于所述语音信号数据归因于所述不同说话者中的哪个说话者来对所述语音信号数据编制索引。
5.根据权利要求3所述的语音系统,其中所述编码器基于所述语音信号数据归因于所述多个不同说话者中的哪个说话者来导出所述语音信号数据的解释。
6.根据权利要求1所述的语音系统,其中所述编码器基于所述导出特征集来识别所述语音信号数据中的语音。
7.一种计算系统,包括:
特征提取系统,被配置为从音频训练数据提取训练特征集并且生成来自相同音频源的特征向量对和来自不同音频源的特征向量对;以及
神经网络训练系统,被配置为接收所述特征向量对并且通过经由权重矩阵将所述特征向量对应用于神经网络的输入节点层来训练所述神经网络,基于指示所述特征向量对来自所述相同音频源还是所述不同音频源的网络输出的目标函数来修改所述权重矩阵,以及从所述权重矩阵中提取权重并且向音频处理系统提供所述权重;
其中所述特征提取系统被配置为从已知说话者的语音中提取所述特征向量对作为特征向量;
所述特征提取系统被配置为生成所述特征向量对作为来自相同说话者的特征向量对和来自不同说话者的特征向量对;
所述神经网络的所述输入节点层包括:
具有一组节点的第一瓶颈层;以及
具有一组节点的第二瓶颈层;
所述权重矩阵将输入上的权重与所述第一瓶颈层和所述第二瓶颈层的对应节点关联在一起;并且
所述神经网络训练系统包括:
训练组件,其通过将所述特征向量对中的每一对的第一特征向量经由所述权重矩阵馈送到所述第一瓶颈层的所述节点中,并且将所述特征向量对中的每一对的第二特征向量经由所述权重矩阵馈送到所述第二瓶颈层的所述节点中,来将所述特征向量对馈送到所述神经网络中。
8.根据权利要求7所述的计算系统,其中所述训练组件被配置为基于所述目标函数,通过迫使所述神经网络的输出层指示所述特征向量对从相同说话者还是不同说话者的语音中被获得,来训练所述神经网络。
9.根据权利要求8所述的计算系统,还包括:
特征生成系统,被配置为将所提取的所述权重应用于从语音数据中提取的特征集,以获得导出特征集。
10.根据权利要求9所述的计算系统,还包括:
语音处理系统,被配置为在生成对应于所述语音数据的语音处理结果中使用所述导出特征集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580053898.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:锂电池极片制造一体机设备
- 下一篇:会员卡