[发明专利]基于音素辅助的文本无关声纹识别方法、装置以及设备在审
申请号: | 202010839084.3 | 申请日: | 2020-08-19 |
公开(公告)号: | CN111785284A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 张学阳;高天 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L15/02 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 常小溪;王立民 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音素 辅助 文本 无关 声纹 识别 方法 装置 以及 设备 | ||
本发明公开了一种基于音素辅助的文本无关声纹识别方法、装置以及设备。本发明分析了现有的文本无关声纹识别技术的缺陷,提出在音素信息上统计帧级别声纹信息分布,并与帧级别特征的第一统计信息进行结合,以此补偿第一统计信息中缺失的个性声纹信息。其中在获得帧级别声纹信息分布过程中,利用到获得第一统计信息之前的输入语音的帧级别特征以及预先掌握到的全局的音素状态分布模板,计算突出了声纹信息的统计量,使得识别说话人的过程有效利用到声纹信息在音素上的分布规律,从而可以大幅提高文本无关场景的说话人识别效果。为了获得用全局音素分布模板,本发明还提出可以预先基于大量说话人语音以及音素分类结果进行海量样本级的分布统计。
技术领域
本发明涉及说话人识别技术领域,尤其涉及一种基于音素辅助的文本无关声纹识别方法、装置以及设备。
背景技术
声纹识别又称说话人识别(Speaker Recognition),是指利用人的声音来检测说话人身份的技术,是一项重要且具有挑战性的研究课题。与其它生物识别技术相比,声纹识别利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作。因此,声纹识别技术在多种领域都具有良好而广阔的应用前景。
通常,说话人识别任务按照文本的相关性可以被分成“文本无关”以及“文本相关”两类任务。文本相关任务是注册语音和测试语音需要是相同文本内容,例如数字密码认证等场景;文本无关场景中,目标说话人的注册和测试没有文本的限制,主要应用对目标说话人安全监控等场景,正是由于其与文本无关的特点,很容易受到音素信息的影响,导致相比于文本相关场景,文本无关声纹识别的处理难度也更大。
目前经典的声纹建模技术主要包含基于TV系统和使用深度神经网络的说话人空间映射两类。前者利用大量的无监督的训练语料数据训练得到覆盖各种环境和信道的全变量空间,利用此空间,将一段语音映射成一个低维度向量(i-vector)用于表征说话人;后者主要是应用前馈神经网络、卷积神经网络等经典网络结构以训练集说话人为目标进行分类,拟合说话人空间分布,从网络中抽取瓶颈层输出作为说话人表征。两者最后都是利用向量间的相似性来描述两段语音是否含有相同的声纹信息。
其中,采用深度神经网络的说话人识别方法在绝大多数场景上已经超越了基于因子分析的TV系统,例如xvector、renset等系统,近些年来逐渐成为说话人识别领域研究的热点,而引入音素信息辅助声纹训练可以进一步提升说话人识别的效果,因此一直是说话人识别领域的研究热点。
比如利用深度神经网络的multi-task方式对说话人声纹信息和音素信息分别进行区分性训练,一般来说,在此过程中提取帧级别表征信息时,可以对其中的音素信息进行分类,之后基于包含音素分类结果的帧级别表征信息统计其均值(及标准差),进而基于获得的统计信息进行说话人分类识别。虽然音素在其中起到了一定的辅佐作用,并可以使识别效果获得相应提升,但由于此方式会着重关注某些对说话人声纹分类有利的语音帧,没有考虑全局音素状态分布的影响,因此,此种方式对说话人识别效果的提升能力仍然有限。
发明内容
由此背景,本发明旨在提供一种基于音素辅助的文本无关声纹识别方法、装置以及设备,并相应地提出一种计算机可读存储介质以及计算机程序产品,本发明针对文本无关的声纹识别场景,充分利用声纹信息在音素上的全局分布规律,从而可以大幅提高基于深度神经网络实现的文本无关说话人识别技术的处理精准度。
本发明采用的技术方案如下:
第一方面,本发明提供了一种基于音素辅助的文本无关声纹识别方法,包括:
提取输入语音的帧级别特征;
根据所述帧级别特征,获得相应于音素状态的音素分类结果,并求取输入语音的第一统计信息;
结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板,对输入语音进行声纹信息分布统计,得到第二统计信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010839084.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:位置确定方法和装置
- 下一篇:一种食用菌菌袋扎口机