[发明专利]语音模型训练方法、说话人识别方法、装置、设备及介质在审
申请号: | 201810549432.6 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108777146A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 涂宏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/06 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹特征 语音模型 通用背景模型 说话人识别 语音识别 语音数据 向量 自适应处理 获取目标 神经网络 训练语音 | ||
本发明公开了一种语音模型训练方法、说话人识别方法、装置、设备及介质。语音模型训练方法包括:基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。采用该语音模型训练方法获取的目标说话人语音识别模型进行说话人识别能够得到精确的识别结果。
技术领域
本发明涉及语音处理领域,尤其涉及一种语音模型训练方法、说话人识别方法、装置、设备及介质。
背景技术
目前在进行说话人语音识别时,大多数都是根据语音特征进行识别,这些语音特征有的维度太高,包含了太多非关键信息;有的维度太低,不能充分体现说话人语音的特点,使得当前说话人识别时精确度较低,无法对说话人语音进行有效的识别,制约说话人语音识别的应用。
发明内容
本发明实施例提供一种语音模型训练方法、装置、设备及介质,以解决当前说话人识别准确度低的问题。
本发明实施例还提供一种说话人识别方法、装置、设备及介质,以解决当前说话人识别准确度低的问题。
第一方面,本发明实施例提供一种语音模型训练方法,包括:
基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;
基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;
基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;
将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。
第二方面,本发明实施例提供一种语音模型训练装置,包括:
通用背景模型获取模块,用于基于预先准备的训练语音数据进行通用背景模型训练,获取通用背景模型;
目标声纹特征模型获取模块,用于基于所述通用背景模型对目标说话人语音数据进行自适应处理,获取相对应的目标声纹特征模型;
目标声纹特征向量获取模块,用于基于所述目标声纹特征模型,获取所述目标说话人语音数据的目标声纹特征向量;
目标说话人语音识别模型获取模块,用于将所述目标声纹特征向量输入到深度神经网络中进行训练,获取目标说话人语音识别模型。
第三方面,本发明实施例提供一种说话人识别方法,包括:
获取待识别语音数据,所述待识别语音数据与用户标识相关联;
基于通用背景模型对所述待识别语音数据进行自适应处理,获取待识别声纹特征模型;
基于所述待识别声纹特征模型,获取对应的待识别声纹特征向量;
根据所述用户标识获取与所述用户标识相对应的目标说话人语音识别模型,采用所述目标说话人语音识别模型对所述待识别声纹特征向量,获取识别概率值;若所述识别概率值大于预设概率值,则确定为用户本人;其中,所述目标说话人语音识别模型是采用所述语音模型训练方法获取到的。
第四方面,本发明实施例提供一种说话人识别装置,包括:
待识别语音数据获取模块,用于获取待识别语音数据,所述待识别语音数据与用户标识相关联;
待识别声纹特征模型获取模块,用于基于通用背景模型对所述待识别语音数据进行自适应处理,获取待识别声纹特征模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549432.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可穿戴设备及数据处理方法
- 下一篇:一种光盘批量抓取装置及其工作方法