[发明专利]数据处理装置和数据处理方法有效
申请号: | 201710001199.3 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108268948B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘柳;刘汝杰;石自强 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G10L17/18;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐京桥;李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 方法 | ||
1.一种数据处理装置,包括:
提取单元,用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;
划分单元,用于将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;
计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及
训练单元,用于训练深度神经网络DNN模型,
其中,所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值,
其中,由所述训练单元训练后的DNN模型的输入为音频数据的超向量,输出为所述音频数据的i向量距离每个簇的簇心之间的距离,并且
其中,所述数据处理装置还包括注册单元,用于针对多个注册音频数据中的每个注册音频数据执行注册,所述注册单元包括:
第一超向量确定单元,用于提取所述注册音频数据的超向量;
第一距离确定单元,用于根据所述DNN模型确定所述注册音频数据的i向量与每个簇的簇心之间的距离;以及
第一参数确定单元,用于根据所述注册音频数据的i向量与每个簇的簇心之间的距离确定所述注册音频数据的参数存储在音频数据库中。
2.根据权利要求1所述的数据处理装置,其中,所述提取单元利用高斯混合模型GMM提取所述训练音频数据的i向量。
3.根据权利要求1所述的数据处理装置,其中,所述划分单元计算每两个i向量之间的距离,并且根据每两个i向量之间的距离将所述i向量划分为多个簇。
4.根据权利要求1所述的数据处理装置,其中,所述提取单元还用于提取所述多个训练音频数据中的每个训练音频数据的超向量,并且所述训练单元还用于将所述每个训练音频数据的超向量作为所述DNN模型的输入特征。
5.根据权利要求1所述的数据处理装置,其中,所述第一参数确定单元从所述注册音频数据的i向量与每个簇的簇心之间的距离中选取多个距离,并且将选取的距离以及与所述距离相对应的簇心作为所述注册音频数据的参数。
6.根据权利要求1所述的数据处理装置,其中,所述数据处理装置还包括测试单元,用于针对多个测试音频数据中的每个测试音频数据执行测试,所述测试单元包括:
第二超向量确定单元,用于提取所述测试音频数据的超向量;
第二距离确定单元,用于根据所述DNN模型确定所述测试音频数据的i向量与每个簇的簇心之间的距离;
第二参数确定单元,用于根据所述测试音频数据的i向量与每个簇的簇心之间的距离确定所述测试音频数据的参数;以及
说话者确定单元,用于根据所述测试音频数据的参数与所述音频数据库确定所述测试音频数据的说话者。
7.根据权利要求6所述的数据处理装置,其中,所述第二参数确定单元从所述测试音频数据的i向量与每个簇的簇心之间的距离中选取多个距离,并且将选取的距离以及与所述距离相对应的簇心作为所述测试音频数据的参数。
8.根据权利要求6所述的数据处理装置,其中,所述说话者确定单元用于执行以下操作:
将所述测试音频数据的参数与所述音频数据库中存储的多个注册音频数据中的每个注册音频数据的参数相比较;
根据比较结果确定所述测试音频数据与所述音频数据库中存储的每个注册音频数据的相似度;以及
确定与所述测试音频数据的相似度最高的注册音频数据的说话者作为所述测试音频数据的说话者。
9.一种数据处理方法,包括:
从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;
将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;
计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及
训练深度神经网络DNN模型,
其中,训练所述DNN模型包括:将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值,
其中,所述DNN模型的输入为音频数据的超向量,输出为所述音频数据的i向量距离每个簇的簇心之间的距离,并且
其中,所述数据处理方法还包括针对多个注册音频数据中的每个注册音频数据执行注册,包括:
提取所述注册音频数据的超向量;
根据所述DNN模型确定所述注册音频数据的i向量与每个簇的簇心之间的距离;以及
根据所述注册音频数据的i向量与每个簇的簇心之间的距离确定所述注册音频数据的参数存储在音频数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710001199.3/1.html,转载请声明来源钻瓜专利网。