[发明专利]单信道多说话人身份识别方法及系统有效
申请号: | 201810053962.1 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108417201B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 俞凯;钱彦旻;王帅 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L17/02;G10L17/04;G10L17/14;G10L17/22;G10L25/30 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信道 说话 人身 识别 方法 系统 | ||
本发明公开一种单信道多说话人身份识别方法及系统,所述单信道多说话人身份识别方法包括:获取待识别的关于单信道多说话人的语音数据的混合帧级特征;将混合帧级特征输入至卷积神经网络模型,以由卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布;根据帧级别概率分布,预测关于多说话人各自作为参考目标说话人的语句级别概率分布;以及基于语句级别概率分布,识别语音数据所对应的说话人身份。本发明实施例的单信道多说话人身份识别方法,以卷积神经网络模型作为学习机器,提高了说话人身份识别的高精确度,并不需要对每种可能的说话人组合都建模,对计算和存储资源的消耗较低,提高了身份识别系统的性能。
技术领域
本发明属于说话者识别技术领域,尤其涉及一种单信道多说话人身份识别方法及系统。
背景技术
单信道说话者识别(co-channel speaker identification,单信道SID)旨在识别同时说话的多个说话者的身份,其经常被用于处理如“鸡尾酒会问题”等。尽管现有技术的说话者识别(Speaker identification,SID)系统在单个讲话者场景中可以达到令人印象深刻的精确度,但是在处理高度重叠(即单信道多说话人)的语音数据仍然是说话者识别研究领域中非常具有挑战性的工作。
为了实现对同时说话的多个说话者的身份的识别,申请人也作出了一些尝试。近年来,有学者提出基于高斯混合模型的单信道多说话人身份识别,其一般是用不同的高斯混合模型(Gaussian mixture model,GMM)去建模不同的说话人组合的联合分布,然后根据选取概率最大的GMM代表的说话人组合作为判别结果。
但是,本申请的发明人在实践本申请的过程中发现上述相关技术至少存在如下缺陷:由于单信道多说话人的音频比较复杂,GMM很难进行充分的建模,以及每种可能的说话人组合都需要一个GMM进行建模,造成计算和存储上的复杂性,限制了身份识别系统的性能。
需说明的是,关于上述相关技术的描述的目的,仅为了便于公众更方便地了解本申请的实践过程,且申请人并不承认上述相关技术的描述为现有技术。
发明内容
本发明实施例提供一种单信道多说话人身份识别方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种单信道多说话人身份识别方法,所述方法包括:获取待识别的关于单信道多说话人的语音数据的混合帧级特征;将所述混合帧级特征输入至卷积神经网络模型,以由所述卷积神经网络模型推导关于多说话人各自作为参考目标说话人的帧级别概率分布;根据所述帧级别概率分布,预测关于所述多说话人各自作为参考目标说话人的语句级别概率分布;以及基于所述语句级别概率分布,识别所述语音数据所对应的说话人身份。
第二方面,本发明实施例提供一种单信道多说话人身份识别系统,所述系统包括:混合帧获取程序模块,用于获取待识别的关于单信道多说话人的语音数据的混合帧级特征;卷积神经网络模型,用于根据所述混合帧级特征,推导关于多说话人各自作为参考目标说话人的帧级别概率分布;语句概率预测程序模块,用于根据所述帧级别概率分布,预测关于所述多说话人作为参考目标说话人的语句级别概率分布;语音数据识别程序模块,用于基于所述语句级别概率分布,识别所述语音数据所对应的说话人身份。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810053962.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音合成播报方法和装置
- 下一篇:语音识别方法及系统