[发明专利]数据处理装置和数据处理方法有效
申请号: | 201710001199.3 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108268948B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘柳;刘汝杰;石自强 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G10L17/18;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐京桥;李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 方法 | ||
本发明涉及数据处理装置和数据处理方法。根据本发明的数据处理装置包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量;划分单元,用于将i向量划分为多个簇,并计算每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明的数据处理装置和数据处理方法,可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离,从而减小在音频数据注册和识别过程中产生的计算量,同时能够得到更加充分的标签信息。
技术领域
本发明的实施例涉及数据处理领域,具体地涉及可以训练深度神经网络DNN模型的数据处理装置和方法、可以注册音频数据的数据处理装置和方法以及可以测试音频数据的数据处理装置和方法。
背景技术
这个部分提供了与本发明有关的背景信息,这不一定是现有技术。
说话人识别是一种生物特征的识别技术,也被称为声纹识别。传统的说话人识别技术主要包括两种:一种是基于GMM(Gaussian Mixture Model,高斯混合模型)提取i向量(也被称为i-vector或者身份向量),根据i向量对音频数据进行注册和识别;另一种是基于DNN(Deep Neural Network,深度神经网络)提取d向量(d-vector),根据d向量对音频数据进行注册和识别。这两种技术都有一些缺陷。在基于GMM提取i向量的识别技术中,需要首先提取音频数据的超向量,超向量经过八次矩阵运算和一次矩阵求逆运算才能够得到音频数据的i向量,算法复杂并且耗时严重;此外,如果训练GMM使用的数据量减少,识别的正确率会大幅度下降。在基于DNN提取d向量的识别技术中,由于结构限制,不得不放弃训练时的输出层,而使用最后一层隐含层的数据作为d向量;进一步,在这种系统中存在固定的输出节点数目,当训练集更新时需要重新训练DNN模型;此外,在这种识别技术中只使用了说话人信息作为标签,丢弃了大量的诸如信道、语句内容和噪声等信息。
针对以上技术问题,本发明希望提出一种方案,能够结合以上两种识别技术,训练出合适的DNN模型,以减小在音频数据注册和识别过程中产生的计算量,简化注册和识别流程,同时能够得到更加充分的标签信息。
发明内容
这个部分提供了本发明的一般概要,而不是其全部范围或其全部特征的全面披露。
本发明的目的在于提供一种数据处理装置和数据处理方法,能够训练处合适的DNN模型,以减小在音频数据注册和识别过程中产生的计算量,简化注册和识别流程,同时能够得到更加充分的标签信息。
根据本发明的一方面,提供了一种数据处理装置,包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;划分单元,用于将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,所述训练单元将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。
根据本发明的另一方面,提供了一种数据处理方法,包括:从多个训练音频数据中的每个训练音频数据提取所述训练音频数据的i向量;将所述i向量划分为多个簇,并计算所述多个簇中的每个簇的簇心;计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练深度神经网络DNN模型,其中,训练所述DNN模型包括:将所述每个训练音频数据的i向量与每个簇的簇心之间的距离作为所述DNN模型的输出真值。
根据本发明的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本发明的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710001199.3/2.html,转载请声明来源钻瓜专利网。