[发明专利]一种提升声纹识别准确度的方法和系统在审

专利信息
申请号: 201610024149.2 申请日: 2016-01-14
公开(公告)号: CN106971736A 公开(公告)日: 2017-07-21
发明(设计)人: 祝铭明 申请(专利权)人: 芋头科技(杭州)有限公司
主分类号: G10L17/06 分类号: G10L17/06;G10L17/04;G06F21/32
代理公司: 上海申新律师事务所31272 代理人: 党蕾
地址: 310000 浙江省杭州市余杭区*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提升 声纹 识别 准确度 方法 系统
【权利要求书】:

1.一种提升声纹识别准确度的方法,其特征在于,包括:

获取同一使用者在不同状态下的声纹,以构建多个与所述声纹相对应的背景识别模型,其中,所述背景声纹特征中包括多个背景声纹特征向量;

根据所述背景识别模型构建所述标准识别模型;

对所述标准识别模型划分识别优先级;

获取未识别声纹中的未识别声纹特征,其中,所述未识别声纹特征中至少包括所述未识别声纹的小波元素;

将所述未识别声纹特征与声纹识别模型中的标准声纹特征按照优先级进行处理得到对应于所述未识别声纹的辨别度,

判断所述辨别度是否大于一预设的标准阈值,当所述辨别度大于所述标准阈值时,则识别出所述未识别声纹为锁定声纹;

所述小波元素包括实小波元素和/或复小波元素,其中,所述获取未识别声纹中的未识别声纹特征包括:

检测所述未识别声纹中的浊音区间;

在每个所述浊音区间中检测基音区间,并在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素。

2.根据权利要求1所述的提升声纹识别准确度的方法,其特征在于,在所述提取未识别声纹中的未识别声纹特征之前,还包括:

采集所述未识别声纹;

至少根据所述未识别声纹特征中的未识别声纹特征向量调整预先构建的标准识别模型中与所述未识别声纹特征向量对应的声纹特征向量参数,以构造出与所述未识别声纹相适应的所述声纹识别模型中的所述标准声纹特征中的标准声纹特征向量。

3.根据权利要求2所述的提升声纹识别准确度的方法,其特征在于,所述未识别声纹特征中包括多个所述未识别声纹特征向量,所述标准声纹特征中包括多个所述标准声纹特征向量,其中,所述至少根据所述未识别声纹特征与声纹识别模型中的标准声纹特征处理得到所述未识别声纹的辨别度包括:

处理得到所述未识别声纹特征中的每个所述未识别声纹特征向量与所述 标准声纹特征中每个与所述未识别声纹特征向量相对应的所述标准声纹特征向量的向量距离;

根据处理得到的多个所述向量距离处理得到所述未识别声纹特征与所述标准声纹特征的目标距离;

至少利用所述未识别声纹特征与所述标准声纹特征的所述目标距离处理得到所述未识别声纹的辨别度。

4.根据权利要求1所述的提升声纹识别准确度的方法,其特征在于,所述至少利用所述未识别声纹特征与所述标准声纹特征的距离处理得到所述未识别声纹的辨别度包括:

处理得到所述未识别声纹特征分别与多个所述背景识别模型对应的每个所述声纹的所述背景声纹特征的背景距离;

根据多个所述背景距离处理得到距离平均值及距离标准差;

处理得到所述未识别声纹特征与所述标准声纹特征的所述目标距离与所述距离平均值的差值;

处理得到所述差值与所述距离标准差的比值,将所述比值作为所述未识别声纹的所述辨别度。

5.根据权利要求1所述的提升声纹识别准确度的方法,其特征在于,所述在每个所述基音区间中获取所述声纹特征的所述实小波元素和/或所述复小波元素包括:

在每个所述基音区间中获取预定的特征向量,并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量,并将所述预定长度的样本向量归一化;

对归一化后的所述预定长度的样本向量执行以下至少一种小波变换:

对归一化后的所述预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在所述第一预定频带中选择满足第一预定条件的频带进行采样,以得到所述未识别声纹特征中的所述实小波元素;

对归一化后的所述预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在所述第二预定频带中选择满足第二预定条件的频带进行采样,以得到所述未识别声纹特征中的所述复小波元素。

6.根据权利要求5所述的提升声纹识别准确度的方法,其特征在于,在检 测所述未识别声纹中的浊音区间之后,所述获取未识别声纹中的未识别声纹特征还包括:

获取所述未识别声纹中每一帧的梅尔倒谱系数,以得到所述未识别声纹特征中的所述梅尔倒谱系数特征;

根据所述梅尔倒谱系数处理得到所述未识别声纹中每一帧的差分梅尔倒谱系数特征,以得到所述未识别声纹特征中的所述差分梅尔倒谱系数特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610024149.2/1.html,转载请声明来源钻瓜专利网。

同类专利
  • 音频识别方法及装置、计算机可读存储介质-201811579098.5
  • 聂镭;李睿;郑权;张峰;聂颖 - 龙马智芯(珠海横琴)科技有限公司
  • 2018-12-24 - 2019-11-05 - G10L17/06
  • 本发明公开了一种音频识别方法及装置、计算机可读存储介质,该方法包括:获取声纹矢量化模型;获取同一目标说话人的多个不同第一音频文件;利用声纹矢量化模型对每一个第一音频文件进行矢量化;采用至少一种方式确定多个不同第一音频文件的声纹向量的中心向量,以及利用每一种中心向量分别确定一相似度接受范围;利用声纹矢量化模型得到待识别音频文件的声纹向量,以及计算待识别音频文件的声纹向量与每一种中心向量的相似度;对于每一种中心向量,判断待识别音频文件的声纹向量与其相似度是否位于利用其确定的相似度接受范围内,以及根据判断的结果确定待识别音频文件是否属于目标说话人。本发明可以实现利用声纹对说话人进行有效识别。
  • 讲话者推定方法及讲话者推定装置-201910043264.8
  • 堀口翔太;神田直之 - 株式会社日立制作所
  • 2019-01-17 - 2019-09-10 - G10L17/06
  • 目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;根据输入的图像进行各人物的人物区域的检测的步骤;根据检测出的各个人物区域推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤;以及根据该计算出的类似度推定讲话者的步骤。
  • 一种带语音播报功能的智能镜柜的语音播报方法-201910434226.5
  • 林孝发;林孝山;柯学标;黄东波;刘名林 - 九牧厨卫股份有限公司
  • 2019-05-23 - 2019-08-13 - G10L17/06
  • 本发明公开了一种带语音播报功能的智能镜柜的语音播报方法,包括以下步骤:步骤1:语音播报设备对用户的语音唤醒指令进行声纹识别,以获取用户身份;步骤2:语音播报设备向云服务器发送该用户身份;步骤3:云服务器检索该用户的预存指令;如检索到该预存指令且该预存指令不涉及智能家居设备,则下发该预存指令所对应的语音内容并执行步骤4;如检索到该用户的预存指令且该预存指令设计智能家居设备,则下发执行指令,且下发智能家居设备正在执行指令的反馈信息,并执行步骤4;步骤4:语音播报设备接收云服务器下发的内容并播报。该语音播报方法解决了现有技术存在的语音播报功能单一、智能化程度不高及需要不断唤醒开启语音播报功能问题。
  • 一种随机数字口令相关的说话人识别方法及装置-201810039718.X
  • 周若华;姚升余;颜永红 - 中国科学院声学研究所;北京中科信利技术有限公司
  • 2018-01-16 - 2019-07-23 - G10L17/06
  • 本发明涉及随机数字口令相关的说话人识别方法及装置,该方法包括,获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将注册说话人模型中对应数字的总变化因子向量与测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对打分进行加权求和,获得判决分数,识别测试说话人的语音是否为注册说话人的语音。本发明对注册和测试中对应数字的语音片段进行匹配打分,可在随机数字口令长度较短如5个随机数字的情况下,仍有很高的识别性能,与常用的高斯混合模型通用背景模型打分方法对比,本发明提出的随机数字口令的说话人识别方法的性能有相对25%‑30%的提升。
  • 一种通过声纹识别进行组网的方法及系统-201910177083.4
  • 陈小平 - 佛山市云米电器科技有限公司;陈小平
  • 2019-03-08 - 2019-07-23 - G10L17/06
  • 本发明公开了一种通过声纹识别进行组网的方法,智能家电设备设有第一声音采集模块,网关/路由器设有数据库,数据中储存有用户的声纹特征值;智能家电设备通电后,通过第一声音采集模块开始采集用户的声音数据;智能家电设备识别声音数据中的声纹信息,然后广播带有声纹信息的广播报文;网关/路由器将广播报文中的声纹信息与数据库中的声纹特征值进行对比:若广播报文中的声纹信息与数据库中的声纹特征值匹配,则允许设备加入网络;否则,不允许设备加入网络。本发明的智能家电设备通过采集用户的声纹来作为身份信息,网关/路由器可根据广播报文中的声纹信息来判断设备是否合法,无需用户手动输入网络配置信息也可安全地进行组网,十分方便。
  • 基于声纹识别优先级的控制方法、装置及存储介质-201910189066.2
  • 谢纯定 - 深圳市酷开网络科技有限公司
  • 2019-03-13 - 2019-07-23 - G10L17/06
  • 本发明公开了基于声纹识别优先级的控制方法、装置及存储介质,可以用于任何需要声纹控制的场景,例如智能家居。所述方法预先将不同的声纹录入到系统中,并设置对应的声纹控制优先级;当接收到不同的语音控制指令时,对不同的语音控制指令进行声纹识别,识别出对应语音控制指令的声纹控制优先级;根据识别出的声纹控制优先级,判断是否执行当前指令。本发明采用声纹识别优先级控制系统可将设备控制权锁定,不允许低优先级、遥控等控制设备的控制,只允许更高优先级的声纹控制,不会出现指令混乱情况;方便用户使用,提高了操作效率。
  • 一种会议语音识别方法及系统、存储介质及终端-201811504259.4
  • 杨进玉;许佑骏;刘旭峰 - 上海思创华信信息技术有限公司
  • 2018-12-10 - 2019-05-10 - G10L17/06
  • 本发明提供一种会议语音识别方法及系统、存储介质及终端,包括以下步骤:提取会议参与人的声纹特征,构建会议参与人的声纹特征库;获取会议语音数据,当会议语音数据包含至少两个会议发言人的语音数据时,将会议语音数据分离为与至少两个会议发言人一一对应的发言人语音数据;对于每个发言人语音数据,提取发言人语音数据的声纹特征,查找匹配的声纹特征并判定匹配的声纹特征对应的会议参与人为发言人语音数据对应的会议发言人;对于每个发言人语音数据,文本输出文本数据、会议发言人和发言时间信息。本发明的会议语音识别方法及系统、存储介质及终端。本发明的会议语音识别方法及系统、存储介质及终端提升了多人会议语音识别的实用性。
  • 一种移动设备终端的声纹识别方法及装置-201811640866.3
  • 黄川;俞瑞隆;甘津瑞;宋泽 - 苏州思必驰信息科技有限公司
  • 2018-12-29 - 2019-05-07 - G10L17/06
  • 本发明公开一种移动设备终端的声纹识别方法及装置,其中,该方法包括:采集录音数据;从触发唤醒库的录音数据中截取唤醒音频;当唤醒音频的信噪比小于第一阈值时,重新截取唤醒音频的步骤,当唤醒音频的信噪比不小于第一阈值时,将信噪比大于第一阈值的唤醒音频进行性别识别。将所述唤醒音频注册声纹;根据注册声纹成功的次数,确定是否启动移动设备终端的声纹识别功能。本方案通过在唤醒阶段,利用唤醒功能提取特定内容的音频,如唤醒音频,通过与第一阈值的比对,筛选出优质信噪比的音频,而且通过重复提取信噪比符合要求的音频,既筛选出了优质音频,也控制了声纹库的大小,从而实现在提升声纹识别率的同时也降低了声纹识别的耗时。
  • 基于声纹识别的监控方法及系统-201811525386.2
  • 王文波;张树童;彭定保;黄开琴;郭迪;刘强;胡正;乜洪波 - 苏州思必驰信息科技有限公司
  • 2018-12-13 - 2019-04-12 - G10L17/06
  • 本发明公开一种基于声纹识别的监控方法及系统,其中所述基于声纹识别的监控方法包括:获取监控场景下的声源语音信息;提取所述声源语音信息所对应的声纹特征,并将所提取的声纹特征与预配置的期望声纹特征进行比对;当所述所提取的声纹特征与所述期望声纹特征相匹配时,解析所述声源语音信息所对应的声源方向;以及监控采集在所述声源方向上的监控画面。由此,将声纹识别技术应用在监控设备中,能够针对监控对象的声纹方向而调整监控设备的采集动作,保障在所采集的监控画面上存在目标监控对象。
  • 一种基于语谱图和音素检索的身份同一性检验方法及装置-201710971618.6
  • 晏青 - 深圳势必可赢科技有限公司
  • 2017-10-18 - 2019-02-01 - G10L17/06
  • 本发明提供了一种基于语谱图和音素检索的身份同一性检验方法及装置,其中方法包括:获取样本音频文件对应的语谱图;获取所述样本音频文件的语音特征参数;构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。本发明解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
  • 一种基于语谱图和音素检索的身份同一性检验方法及装置-201710971618.6
  • 晏青 - 深圳势必可赢科技有限公司
  • 2017-10-18 - 2019-02-01 - G10L17/06
  • 本发明提供了一种基于语谱图和音素检索的身份同一性检验方法及装置,其中方法包括:获取样本音频文件对应的语谱图;获取所述样本音频文件的语音特征参数;构建音素识别模型,将所述语音特征参数输入至所述音素识别模型中进行音素检索,得到符合的音素;将所述符合的音素标识在所述语谱图上,对具有相同标识的元音或元音组合进行同一性检验,判断所述样本音频文件对应的待识别者身份验证是否通过。本发明解决了实际声纹鉴定中搜索和查找音素的技术问题,并将音素可视化显示,提高办案人员的认定效率。
  • 一种车辆分时租赁智能应用系统及方法-201810810881.1
  • 王忠;杜雄 - 威马智慧出行科技(上海)有限公司
  • 2018-07-23 - 2018-12-25 - G10L17/06
  • 本发明提供了一种车辆分时租赁智能应用系统及方法。所述系统包括云端和终端;所述终端,被配置成接收语音输入,并将语音输入发送给云端。所述云端包括:声纹注册模块,被配置成根据终端发送的语音输入,对语音进行声纹注册;声纹验证模块,被配置成对语音输入进行声纹验证;语音识别和语义解析模块,被配置成在声纹验证通过后,进行语音识别和语义解析;以及用户行为意图处理模块,被配置成根据语音识别和语义解析后的结果来处理用户行为意图,并将处理结果通过语音消息通知的形式反馈给终端。
  • 一种车辆分时租赁远程控制方法和系统-201810810839.X
  • 王忠;杜雄 - 威马智慧出行科技(上海)有限公司
  • 2018-07-23 - 2018-11-30 - G10L17/06
  • 本发明提供了一种车辆分时租赁远程控制系统和方法。所述方法包括发送语音指令到远控接口服务端;远控服务端进行声纹验证,如果声纹验证通过,则远控服务端进行语音识别以及语义解析;OBD服务端对指令进行封装以及加密处理,并基于TCP/IP长连接传输封装好的私有协议数据;OBD终端接收到指令,完成解析、解密,输入到CAN总线;CAN总线根据指令控车,并返回执行结果给OBD终端;OBD终端对CAN总线返回的结果进行封装、加密处理,发送给OBD服务端;OBD服务端将OBD终端发送的消息进行解密并解析;OBD服务端将解析后的消息发送给终端,进行语音提示。
  • 一种具有语音控制功能的智能护理床-201810726303.X
  • 韦德远 - 梧州井儿铺贸易有限公司
  • 2018-07-04 - 2018-11-27 - G10L17/06
  • 本发明公开了一种具有语音控制功能的智能护理床,该智能护理床包括护理床本体和设置在护理床本体上的语音采集装置、语音处理系统、控制指令生成系统、护理床控制系统。语音采集装置用于采集说话人的语音信号;语音处理系统用于对采集的语音信号进行分析,获取说话人的身份信息以及语音信号中的关键词的特征参数;控制指令生成系统用于根据获取的说话人的身份信息,确认说话人是否具有控制权限,若说话人具有控制权限,则根据语音信号中的关键词的特征参数,生成相应的控制指令;护理床控制系统根据控制指令控制护理床本体执行相应的操作。本发明通过语音控制方式来控制护理床,可以给用户带来极大的便利,方便用户轻松控制护理床。
  • 一种动画制作方法、装置、终端及可读介质-201810620421.2
  • 王文斌 - 上海与德科技有限公司
  • 2018-06-15 - 2018-11-20 - G10L17/06
  • 本发明实施例公开了一种动画制作方法、装置、终端及可读介质,其中该方法包括:采集环境声音,识别所述环境声音中的孩童语音;根据所述孩童语音匹配素材数据以及动作数据;根据所述素材数据以及动作数据生成动画。本发明实施例提供的一种动画制作方法、装置、终端及可读介质,实现了对孩童表达的想法的记录,有助于家长了解孩童的心理情况。
  • 电器设备的控制方法、装置和系统-201810060221.6
  • 徐夏伶;卢俊杰;宋德超 - 珠海格力电器股份有限公司
  • 2018-01-22 - 2018-07-24 - G10L17/06
  • 本发明公开了一种电器设备的控制方法、装置和系统。其中,该方法包括:获取目标对象发出的第一语音信息;利用声纹识别模型对第一语音信息进行识别,确定与目标对象对应的声纹信息,其中,声纹识别模型为使用多组样本数据通过机器学习训练出来的,多组样本数据包括:目标对象的语音信息和相匹配的声纹信息;获取与声纹信息对应的控制方式;根据控制方式,对电器设备进行控制。本发明解决了现有的电器设备无法根据不同用户的控制习惯进行工作,个性化程度低的技术问题。
  • 声纹识别方法及装置-201710618757.0
  • 郑晓明;李健;张连毅;武卫东 - 北京捷通华声科技股份有限公司
  • 2017-07-26 - 2017-12-01 - G10L17/06
  • 本发明提供了一种声纹识别方法及装置,涉及身份识别领域。所述方法包括获取待识别对象的声音数据,确定所述待识别对象的对象属性,计算所述待识别对象的声音数据针对说话人声音模型的评价数据,并通过与所述对象属性对应的归一化参数对所述评价数据进行归一化处理,以根据归一化后的所述评价数据识别所述待识别对象。本发明能够提高声纹识别的准确性。
  • 一种提升声纹识别准确度的方法和系统-201610024149.2
  • 祝铭明 - 芋头科技(杭州)有限公司
  • 2016-01-14 - 2017-07-21 - G10L17/06
  • 本发明公开了一种提升声纹识别准确度的方法和系统。获取同一使用者在不同状态下的声纹,构建多个与声纹相对应的背景识别模型,背景声纹特征中包括多个背景声纹特征向量;根据背景识别模型构建标准识别模型划分识别优先级;获取未识别声纹中的未识别声纹特征,未识别声纹特征中至少包括未识别声纹的小波元素;将未识别声纹特征与声纹识别模型中的标准声纹特征按照优先级进行处理得到对应于未识别声纹的辨别度,判断辨别度是否大于一预设的标准阈值,当辨别度大于标准阈值时,则识别出未识别声纹为锁定声纹,并退出。本发明的有益效果在于,可对使用者的声纹特征进行快速识别,克服现有技术中声纹识别容易受到外界因素的干扰。
  • 一种基于矩阵离线预计算的快速全空间因子处理方法-201210581078.8
  • 雷琴辉;赵彬;赵敏志;于超敏;赵志伟;卢小亭;王丹;吴晓如 - 安徽科大讯飞信息科技股份有限公司
  • 2012-12-27 - 2013-05-01 - G10L17/06
  • 本发明涉及一种基于矩阵离线预计算的快速全空间因子处理方法,步骤为:资源加载,首先都需要加载通用背景模型(UBM),全空间因子矩阵T;获取需要做声纹验证或者注册的语音数据,并提取声纹识别所需PLP特征;提取零阶统计量N和一阶统计量F;计算并得到L矩阵;生成L矩阵的逆矩阵;利用一阶统计量、L矩阵的逆矩阵、协方差扩展矩阵、全空间因子矩阵得到本次语音对应的全空间因子W;如果完成所有语音计算则结束。本发明将全空间因子求解模块效率提升了几十倍,使得全空间因子分析与本征信道因子分析算法复杂度相当,从而使得声纹识别中可以采用两者融合的系统。
  • 声纹标识-201180025755.1
  • D·J·拉斯姆森 - 微软公司
  • 2011-05-09 - 2013-03-20 - G10L17/06
  • 可提供声纹标识。可记录多个讲话者并将其与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户,可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top