[发明专利]一种声纹识别方法及装置在审

专利信息
申请号: 201910673696.7 申请日: 2019-07-24
公开(公告)号: CN112289325A 公开(公告)日: 2021-01-29
发明(设计)人: 曾夕娟;周小鹏;芦宇;胡伟湘;蔡丹蔚;李明 申请(专利权)人: 华为技术有限公司;昆山杜克大学
主分类号: G10L17/20 分类号: G10L17/20;G10L17/04;G10L17/02;G10L17/06;G10L21/0208;G10L25/03;G10L25/30;H04L9/32
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 王春波
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种声纹识别方法及装置,用以解决现有技术中声纹识别方法鲁棒性低的问题。该方法涉及人工智能等相关领域,具体包括:电子设备提示用户录入注册语音;电子设备采集用户录入的注册语音;电子设备基于注册语音生成远场条件下的样本语音;电子设备基于样本语音对声纹识别模型进行训练。
搜索关键词: 一种 声纹 识别 方法 装置
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;昆山杜克大学,未经华为技术有限公司;昆山杜克大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910673696.7/,转载请声明来源钻瓜专利网。

同类专利
  • 基于高低频动静特征的声纹识别方法-201911137708.0
  • 魏建国;张琳;张瑞腾 - 天津大学
  • 2019-11-19 - 2023-09-15 - G10L17/20
  • 本发明涉及模式识别、声纹识别,为提出一种针对声音信号进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。本发明主要应用于声音识别场合。
  • 一种基于SRS-CL网络的说话人识别方法-202310380703.0
  • 陈志浩;伍忠东;郑礼;汤春阳;王鹏程;张卓;乔思诺 - 兰州交通大学
  • 2023-04-11 - 2023-07-14 - G10L17/20
  • 本发明公开了一种基于SRS‑CL网络的说话人识别方法,属于说话人识别技术领域,包括步骤一:采集非约束场景下的带有高斯白噪声的说话人语音数据;步骤二:针对传统的Sup‑cl对比学习模型的不足,我们提出一种用于执行说话人识别任务的SRS‑CL模型;步骤三:使用步骤二中数据处理后得到的训练集对步骤二中构建的SRS‑CL模型进行训练;步骤四:将步骤二中数据处理后的测试集作为待识别说话人语音信号输入训练完成后的SRS‑CL模型,得到说话人识别结果。本发明采用小波变换和阈值去噪的方法对语音数据进行处理,将其转换为时频图,并通过对比学习网络进行语音信号的特征提取和训练,以提高网络在高噪声环境下的特征提取能力,并实现说话人识别功能。
  • 声纹验证方法、装置、电子设备和存储介质-202111553029.9
  • 刘佳杨 - 北京小米移动软件有限公司
  • 2021-12-17 - 2023-06-27 - G10L17/20
  • 本公开涉及一种声纹验证方法、装置、电子设备和存储介质,涉及声纹识别技术领域,该方法包括:从待验证音频中提取噪声音频,对噪声音频和预先注册的注册音频进行音频混合,得到混合音频,根据混合音频和待验证音频,确定待验证音频的验证结果。本公开可以有效利用待验证音频,从待验证音频中提取噪声音频,并与注册音频进行音频混合,得到混合音频,混合音频对应的噪声与待验证音频所处音频输入环境中的噪声相匹配,这样使得利用混合音频和待验证音频确定的验证结果,能够有效应对待验证音频所处音频输入环境中出现的各种噪声,从而提高声纹验证的通过率,并确保验证结果的准确性。
  • 一种电话声纹识别中去除干扰音以提升识别率的方法及系统-202211508559.6
  • 陈萍;高培培;袁哲;沙淮;何敏 - 江苏号百科技有限公司
  • 2022-11-29 - 2023-03-14 - G10L17/20
  • 本发明公开了一种电话声纹识别中去除干扰音以提升识别率的方法及系统,方法包括:S1、音频分析:获取录音及录音的时域信息和频域信息,通过窗移获取录音的有效音频片段;S2、干扰音识别处理:根据有效音频片段的高低频峰值频率识别该有效音频片段是否为按键音;然后根据需求获取按键音信息,或者根据需求删除为按键音的有效音频片段,得到若干非按键音的有效音频片段,拼接后进行声纹算法训练以及声纹识别。本发明可有效提高电话声纹识别的准确率,且具有处理效率高、处理灵活等优点。
  • 声纹提取方法、声纹识别方法及相关装置、设备和介质-202210683340.3
  • 杨军;方磊;夏翔;周振昆;宣璇;何雪;胡鹏;桑宏报;施志强;张梦;王婕珺;方四安;柳林 - 合肥讯飞数码科技有限公司
  • 2022-06-15 - 2022-10-21 - G10L17/20
  • 本申请公开了一种声纹提取方法、声纹识别方法及相关装置、设备和介质,其中,声纹提取方法包括:获取由目标对象的各目标语音提取到的初始声纹特征,分别与参考声纹特征之间的差值声纹特征;从若干高斯混合模型中,确定与差值声纹特征匹配的高斯混合模型,作为差值声纹特征对应的目标混合模型;基于差值声纹特征和差值声纹特征对应的目标混合模型,分析得到信道特征,并从差值声纹特征对应的初始声纹特征中剥离信道特征,得到差值声纹特征对应的优化声纹特征;基于各差值声纹特征分别对应的优化声纹特征进行特征融合,得到目标对象的最终声纹特征。上述方案,能够尽可能地削弱声纹特征中的信道噪声,以提升声纹识别的准确性。
  • 声纹提取方法、装置、设备及可读存储介质-202210616862.1
  • 李晋;方昕;褚繁;高天;胡郁;戴礼荣;高建清 - 科大讯飞股份有限公司
  • 2022-06-01 - 2022-09-06 - G10L17/20
  • 本申请公开了一种声纹提取方法、装置、设备及可读存储介质。获取待进行声纹提取的语音数据之后,先确定语音数据对应的语谱片段,再针对每个语谱片段,对语谱片段进行声纹提取,得到语谱片段的融合有语音数据的录制环境信息的声纹表征向量;对各个语谱片段的融合环境信息的声纹表征向量进行加权平均,得到语音数据的融合有语音数据的录制环境信息的声纹表征向量。上述方案中,语音数据的声纹表征向量融合有语音数据的录制环境信息,其精准度更高,因此,采用上述方案能够消除语音数据录制环境差异对声纹信息的精准度的影响。
  • 基于声纹识别的通话降噪方法、通话降噪装置及耳机-202210366734.6
  • 陀智宇;温泓 - 深圳市敦实电子有限公司
  • 2022-04-08 - 2022-07-08 - G10L17/20
  • 本发明公开一种基于声纹识别的通话降噪方法,包括:获取并保存用户的声纹特征信息;采集用户通话时的声音信号,将所述声音信号与所述声纹特征信息进行比对,并分离出语音信号和纯噪音信号;对分离出的语音信号和纯噪音信号做噪声相关性分析,若所述纯噪音信号与所述分离出的语音信号具有相关性,则利用所述纯噪音信号作为滤波器对所述分离出的语音信号进行滤波,再将所述纯噪音信号进行动态清除后输出降噪后的语音信号;若所述纯噪音信号与所述分离出的语音信号不具有相关性,则将所述纯噪音信号进行动态清除后输出降噪后的语音信号。本发明还公开了一种通话降噪装置和耳机。本发明利用声纹识别处理语音信号,降噪效果更好。
  • 音频处理方法、装置、电子设备及可读存储介质-202111151964.2
  • 孙连鹏;冯大航;陈孝良 - 北京声智科技有限公司
  • 2021-09-29 - 2021-12-31 - G10L17/20
  • 本申请公开了一种音频处理方法、装置、电子设备及可读存储介质,属于音频处理技术领域。其中,由终端执行的方法包括:获取第一人声音频和环境声音频;根据所述第一人声音频的信息量、所述环境声音频的信息量和所述终端的算力状态,确定是否向云端服务器发送所述第一人声音频和所述环境声音频,以及音频处理请求,所述音频处理请求用于请求所述云端服务器对所述第一人声音频和所述环境声音频进行降噪处理,以获取所述第一人声音频对应的目标声纹信息。能够使终端及时进行降噪处理,提高声纹识别的效率。
  • 基于VAD的多维特征参数声纹识别方法-202011557161.2
  • 邓立新;孙明铭;濮勇;徐艳君 - 南京邮电大学
  • 2020-12-25 - 2021-03-23 - G10L17/20
  • 基于VAD的多维特征参数声纹识别方法,包括如下步骤,步骤S1、对输入的语音信号进行读取、预加重及分帧和加窗,将其转化为语音预处理信号;步骤S2、通过端点检测准确检测出已分帧的语音预处理信号的起止帧,去除静音段;步骤S3、提取出端点检测后语音信号的MFCC特征参数、MFCC标准化特征参数、GFCC特征参数、PNCC特征参数,并将它们组合形成多维度特征参数。本方法提高了端点检测的准确率,减少了模板训练阶段训练的数据量,增强了抗噪声干扰能力并有效提高了声纹识别的识别效率。
  • 环境调节的讲话人标识-201680006794.X
  • A.W.罗维特 - 微软技术许可有限责任公司
  • 2016-01-06 - 2021-01-12 - G10L17/20
  • 对计算系统的用户身份进行计算机化估计。所述系统估计在计算系统处接收的接收到的用户声音的环境特定的变更。所述系统通过使用对应的依赖用户的音频模型,估计接收到的用户声音是否来自特定用户。所述依赖用户的音频模型可被存储在可访问的多系统储存装置,以使得所述方法可以对于给定的用户跨多个系统的以及在用户过去从没有训练成识别所述用户的系统上执行。这减小了或甚至消除了用户训练系统来识别用户话音的需要,并且允许多个系统利用由用户执行的之前的训练。
  • 基于自适应语音增强的声纹识别装置-202020429343.0
  • 杨骏;周春辉 - 佛山科学技术学院;佛山磬聆信息技术有限公司
  • 2020-03-27 - 2020-12-01 - G10L17/20
  • 本实用新型公开了基于自适应语音增强的声纹识别装置,包括拾音模块、语音增强处理模块、音频接口以及配置有声纹识别软件的PC电脑,拾音模块、语音增强处理模块、音频接口以及PC电脑依次相连;语音信号通过拾音模块传输至语音增强处理模块,经过语音增强处理模块处理后的语音信号经过音频接口传输至PC电脑进行声纹识别。本技术方案在将语音信号传输至PC电脑之前,利用语音增强处理模块先对语音信号进行预处理,语音增强处理模块根据背景噪声和语音信号特征的差异,进行降噪以及语音增强处理,同时降低了环境混响的影响,提高了语音信号的信噪比,因而改善了语音信号的特征矢量,有利于提高声纹识别的识别率。
  • 一种车载多音区语音处理的方法和相关装置-202010424470.6
  • 王飞;蒋亚冲;钱俊 - 科大讯飞股份有限公司
  • 2020-05-19 - 2020-08-28 - G10L17/20
  • 本申请公开了一种车载多音区语音处理的方法和相关装置,该方法包括:通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息;利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频;结合位置信息和多路音频综合确定语音识别的目标方向。由此可见,在多路音频的基础上,将各个车载座椅传感器检测得到位置信息作为辅助信息,综合确定语音识别的目标方向,能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰,以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性,从而实现更精准的车载多音区语音交互,提升车载多音区语音交互的用户体验。
  • 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法-201810493026.2
  • 李鹏乾;李艳雄 - 华南理工大学
  • 2018-05-22 - 2020-05-22 - G10L17/20
  • 本发明公开了一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,步骤如下:首先从语音样本中提取Filterbank特征和梅尔频率倒谱系数特征,分别作为两个特征流;将这两个特征流分别输入两个带瓶颈层的深度置信网络进行特征变换,得到两个瓶颈特征流;然后将这两个瓶颈特征流拼接起来并输入第三个带瓶颈层的深度置信网络进行特征变换,从而得到融合变换后的特征;最后,采用长短时记忆网络作为分类器判断语音样本属于哪一个说话人。本发明采用多个深度置信网络对输入声学特征进行融合变换,相比于单个声学特征及单个神经网络变换后的特征能更有效刻画不同说话人的特性差异,在说话人辨识中可以获得更加优异的效果。
  • 一种基于语音降噪的声纹识别方法和相关装置-201980003326.0
  • 陈昊亮;罗伟航 - 广州国音智能科技有限公司
  • 2019-12-24 - 2020-05-05 - G10L17/20
  • 本申请公开了一种基于语音降噪的声纹识别方法和相关装置,其中方法包括:获取待识别语音;对待识别语音进行去噪处理;提取去噪后的待识别语音的第一语谱图;将第一语谱图输入到预置卷积神经网络模型,得到待识别语音的声纹识别结果,本申请通过对获取的待识别语音进行去噪处理,得到去噪后的待识别语音,基于去噪后的待识别语音进行声纹识别,有助于提高声纹识别结果,解决了现有的声纹识别方法对于含有噪声的待识别语音存在鉴别效果不佳的技术问题。
  • 低信噪比环境下基于多频带能量分布的动物声音检测方法-201611040015.6
  • 李应;王巧静 - 福州大学
  • 2016-11-23 - 2019-11-12 - G10L17/20
  • 本发明涉及一种低信噪比环境下基于多频带能量分布的动物声音检测方法,包括以下步骤:步骤S1:利用多滤波器组对待测声音样本进行时频分析,获得多频带频谱图;步骤S2:分析所述多频带频谱图的频率及能量分布,获取多频带能量分布图;步骤S3:对所述多频带能量分布图进行分块DCT,并提取DCT系数矩阵中的低频系数作为所述待测声音样本的特征;步骤S4:根据以上步骤对若干训练声音样本进行处理,获取训练声音样本的特征,并采用随机森林分类器对所述训练声音样本的特征进行训练,得到随机森林;步骤S5:将所述待测声音样本的特征代入随机森林进行测试,确定所述待测声音样本的类标。本发明相比于现有技术在低信噪比的情况下具有良好的鲁棒性。
  • 声纹识别方法、装置、设备及计算机可读存储介质-201910777107.X
  • 陈昊亮;罗伟航;李炳霖 - 广州国音智能科技有限公司
  • 2019-08-21 - 2019-10-22 - G10L17/20
  • 本发明公开了一种声纹识别方法、装置、设备及计算机可读存储介质,该方法包括步骤:获取用于声纹识别的语音信息,并对语音信息进行分解,得到第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪处理,再将降噪后的第一模态信号与除第一模态之外的模态信号进行相加重构,得到待识别声纹信息;计算待识别声纹信息的识别度;根据识别度判断待识别声纹信息是否为目标声纹。本发明提供了声纹识别的方法,提高了现有技术对声纹识别不准确的问题。
  • 基于十字形声阵列宽带波束形成的声识别方法-201610409905.3
  • 王天磊;王建中;曹九稳;赖晓平 - 杭州电子科技大学
  • 2016-06-12 - 2019-08-27 - G10L17/20
  • 本发明公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明包括如下步骤:1、将十字形声阵列对准所需方向采集声音信号;2、对采集到声音信号进行预处理;3、对预处理后的每一帧数据进行离散傅里叶变换,然后根据需要的频带进行频带提取;4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换;6、对应分帧时的原则进行帧重叠合成,输出信号;7、对输出信号进行特征提取和分类学习、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,将其用于声音识别系统的信号处理阶段,能够有效的提高识别系统对识别对象的识别率和可靠性。
  • 一种鲁棒性的回放语音检测方法-201910070412.5
  • 王让定;林朗;严迪群 - 宁波大学
  • 2019-01-24 - 2019-04-09 - G10L17/20
  • 本发明涉及一种鲁棒性的回放语音检测方法,所述方法包括步骤一、分析真实语音和回放语音的频率子带之间的差异;步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。本发明具有检测准确性高,鲁棒性好的优点。
  • 声纹辨识装置及其声纹辨识方法-201610806957.4
  • 黄耀民;陈宇皓;赖欣怡 - 财团法人资讯工业策进会
  • 2016-09-07 - 2018-03-09 - G10L17/20
  • 一种声纹辨识装置及其声纹辨识方法。声纹辨识装置存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各声纹数据及待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成。声纹辨识装置执行声纹辨识方法,其包含下列步骤将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率;计算该多个频带中该多个比特误差率小于一第一临界值的一百分比;以及当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
  • 一种声纹识别方法和装置-201310032846.9
  • 王尔玉;卢鲤;张翔;刘海波;李露;饶丰;陆读羚;岳帅;陈波 - 腾讯科技(深圳)有限公司
  • 2013-01-28 - 2014-08-06 - G10L17/20
  • 本发明实施方式提出一种声纹识别方法和装置。方法包括:基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息,可以有效抵御噪声干扰。
  • 基于噪声屏蔽核的说话人识别方法-201310681894.0
  • 张卫强;刘加 - 清华大学
  • 2013-12-12 - 2014-04-09 - G10L17/20
  • 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top