[发明专利]基于音素辅助的文本无关声纹识别方法、装置以及设备在审
申请号: | 202010839084.3 | 申请日: | 2020-08-19 |
公开(公告)号: | CN111785284A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 张学阳;高天 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L15/02 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 常小溪;王立民 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音素 辅助 文本 无关 声纹 识别 方法 装置 以及 设备 | ||
1.一种基于音素辅助的文本无关声纹识别方法,其特征在于,包括:
提取输入语音的帧级别特征;
根据所述帧级别特征,获得相应于音素状态的音素分类结果,并求取输入语音的第一统计信息;
结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,对输入语音进行声纹信息分布统计,得到第二统计信息;
根据所述第一统计信息以及所述第二统计信息,对输入语音进行说话人识别。
2.根据权利要求1所述的基于音素辅助的文本无关声纹识别方法,其特征在于,所述结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,对输入语音进行声纹信息分布统计,得到第二统计信息包括:
利用所述音素分类结果,统计输入语音在各音素上的总体占比;
利用所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,统计输入语音中的声纹信息在各音素上的分布情况。
3.根据权利要求2所述的基于音素辅助的文本无关声纹识别方法,其特征在于,所述统计输入语音中的声纹信息在各音素上的分布情况包括:
基于预先确定的音素状态分布模板,削弱所述帧级别特征中音素信息的影响;
利用处理后的所述帧级别特征以及所述音素分类结果,统计出输入语音中声纹信息在各音素上的分布情况。
4.根据权利要求1所述的基于音素辅助的文本无关声纹识别方法,其特征在于,所述根据所述第一统计信息以及所述第二统计信息,对输入语音进行说话人识别包括:
融合所述第一统计信息以及所述第二统计信息;
基于融合后的统计信息,对输入语音的说话人进行识别。
5.根据权利要求1~4任一项所述的基于音素辅助的文本无关声纹识别方法,其特征在于,确定所述音素状态分布模板包括:
预先基于大量的说话人语音样本,提取帧级别信息;
利用所述帧级别信息统计所有样本在每个音素状态上的均值,或者均值及标准差。
6.一种基于音素辅助的文本无关声纹识别装置,其特征在于,包括:
帧级别特征提取模块,用于提取输入语音的帧级别特征;
音素分类模块,用于根据所述帧级别特征,获得相应于音素状态的音素分类结果
第一统计模块,用于根据所述帧级别特征,求取输入语音的第一统计信息;
第二统计模块,用于结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,对输入语音进行声纹信息分布统计,得到第二统计信息;
说话人识别模块,用于根据所述第一统计信息以及所述第二统计信息,对输入语音进行说话人识别。
7.根据权利要求6所述的基于音素辅助的文本无关声纹识别装置,其特征在于,所述第二统计模块包括:
音素占比统计单元,用于利用所述音素分类结果,统计输入语音在各音素上的总体占比;
声纹分布统计单元,用于利用所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,统计输入语音中的声纹信息在各音素上的分布情况。
8.根据权利要求6所述的基于音素辅助的文本无关声纹识别装置,其特征在于,所述说话人识别模块包括:
统计信息融合单元,用于融合所述第一统计信息以及所述第二统计信息;
说话人识别单元,用于基于融合后的统计信息,对输入语音的说话人进行识别。
9.根据权利要求6~8任一项所述的基于音素辅助的文本无关声纹识别装置,其特征在于,还包括分布模板确定模块;所述分布模板确定模块具体包括:
帧级别信息提取单元,用于预先基于大量的说话人语音样本,提取帧级别信息;
全局分布统计单元,用于利用所述帧级别信息统计所有样本在每个音素状态上的均值,或者均值及标准差。
10.一种基于音素辅助的文本无关声纹识别设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~5任一项所述的基于音素辅助的文本无关声纹识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010839084.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:位置确定方法和装置
- 下一篇:一种食用菌菌袋扎口机