[发明专利]一种声纹身份认证装置及其认证优化方法和系统在审

专利信息
申请号: 201710692088.1 申请日: 2017-08-14
公开(公告)号: CN107481736A 公开(公告)日: 2017-12-15
发明(设计)人: 王炜婷;温坤华;朱慧广;陈俊 申请(专利权)人: 广东工业大学
主分类号: G10L25/24 分类号: G10L25/24;G10L17/00;G10L17/04
代理公司: 北京集佳知识产权代理有限公司11227 代理人: 罗满
地址: 510062 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种声纹身份认证装置的认证优化方法,包括提取注册语音信号对应的梅尔倒谱系数,并对其进行预设编号绑定;将梅尔倒谱系数作为输入层,将其绑定的编号作为输出层,进行区分深度置信网络训练,并获得其参数空间;将梅尔倒谱系数输入区分深度置信网络,以获得其隐层输出,并将其作为特征向量;将各特征向量作为输入构建高斯混合模型;将任意一个注册语音信号对应的梅尔倒谱系数输入区分深度置信网络,以获得其多个隐层输出,并选择区分度高于预设阈值的隐层输出作为训练数据,对高斯混合模型进行更新。本发明将注册人在后续自然发生变化的语音信号作为训练数据,更新高斯混合模型,使其更加适应于注册人的当前发声状态,保证识别率。
搜索关键词: 一种 声纹 身份 认证 装置 及其 优化 方法 系统
【主权项】:
一种声纹身份认证装置的认证优化方法,其特征在于,包括:提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型;将任意一个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得区分深度置信网络的多个隐层输出,并选择其中若干个区分度高于预设阈值的隐层输出作为训练数据,对所述高斯混合模型进行更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710692088.1/,转载请声明来源钻瓜专利网。

同类专利
  • 基于功率归一化倒谱系数特征的帕金森病语音检测方法-201910686991.6
  • 赵彦平;陈万忠;王波;赵晓晖;张颖;王海艳 - 吉林大学
  • 2019-07-29 - 2019-10-15 - G10L25/24
  • 本发明公开了基于功率归一化倒谱系数特征的帕金森病语音检测方法,为克服帕金森病语音检测中易受噪声干扰的问题,通过Gammatone滤波器、去除噪声、功率归一化等方法增强所提取特征的鲁棒性,检测方法步骤:1)建立帕金森病语音库和健康语音库;2)对语音信号进行功率归一化倒谱系数特征提取:首先对语音信号进行预处理,然后利用Gammatone滤波器进行滤波,得到语音短时功率谱,接下来对语音短时功率谱进行加权平滑,最后计算功率归一化倒谱系数特征;3)利用外积得到特征向量;4)对特征向量进行功率和l2范数归一化;5)利用SVM训练帕金森病语音和健康语音模型;6)利用SVM分类方法进行分类,实现帕金森病语音检测。
  • 音节自动标注方法、装置、计算机设备及存储介质-201910423926.4
  • 王健宗;曾振;罗剑 - 平安科技(深圳)有限公司
  • 2019-05-21 - 2019-10-08 - G10L25/24
  • 本发明公开了一种音节自动标注方法、装置、计算机设备及存储介质。该方法包括获取待标注语音,待标注语音携带有类型标签;对待标注语音进行切分处理,获取依据时间顺序排序的待标注帧音频;对每一待标注帧音频进行声学特征提取,获取待标注帧音频对应的声学特征;根据类型标签,从应用时序分类算法的长短时记忆神经网络模型生成的原始音节标注模型中,选取与类型标签对应的目标音节标注模型;依据时间顺序,将待标注语音对应的所有声学特征依次输入到目标音节标注模型中,获取待标注语音对应的目标音节序列,无需人工干预,实现音节自动标注,提高音节标注效率和准确性。
  • 一种检测方法、检测模型生成方法和装置-201910420319.2
  • 张愉 - 菜鸟智能物流控股有限公司
  • 2019-05-20 - 2019-10-01 - G10L25/24
  • 本申请实施例提供了一种检测方法、检测模型生成方法和装置,所述检测方法包括:获取待测包裹的目标声纹特征;所述待测包裹收容有待测物流对象;将所述目标声纹特征输入至预设的检测模型;获取所述检测模型输出的破损检测结果;其中,所述破损检测结果包括所述待测物流对象的破损状态,所述破损状态包括未破损和已破损中的一种。本申请实施例可以实现对待测包裹中物流对象的破损状态进行检测,提高物流运输效率。
  • 一种呼救识别方法、装置、可读存储介质及终端设备-201910238082.6
  • 李晓刚 - 深圳市中电数通智慧安全科技股份有限公司
  • 2019-03-27 - 2019-07-19 - G10L25/24
  • 本发明涉及安防技术领域,尤其涉及一种呼救识别方法、装置、存储介质及终端设备,所述方法包括:获取目标场所的语音数据,并从语音数据中提取梅尔频率倒谱系数MFCC特征;获取各呼救类别对应的各个预置的样本语音数据,并从各样本语音数据中提取样本MFCC特征;分别将MFCC特征与各样本MFCC特征组成输入组输入至训练完成的语音检测模型,得到语音检测模型输出的MFCC特征与各样本MFCC特征之间的相似度;根据相似度确定语音数据对应的呼救类别,并根据呼救类别对应的报警方式进行报警,通过语音数据进行报警分析,可不受遮挡的影响,扩大呼救识别的使用范围,另外,通过语音检测模型进行MFCC特征相似度的确定,可提高呼救语音相似度确定的准确性,提高报警准确性。
  • 基于卷积神经网络和MFCC的颤振识别方法和系统-201910291425.5
  • 冯伟;王建军 - 中国一拖集团有限公司
  • 2019-04-11 - 2019-07-12 - G10L25/24
  • 本发明提供一种基于卷积神经网络和MFCC的颤振识别方法和系统,该方法包括如下步骤:获取削切过程中发生颤振和没有发生颤振时的噪声信号,并根据该噪声信号的梅尔倒谱系数对卷积神经网络进行训练,得到训练后的卷积神经网络;在削切过程中实时采集噪声信号,根据该噪声信号的梅尔倒谱系数,结合训练后的卷积神经网络,判断削切过程中是否存在颤振。本发明所提供的技术方案,通过噪声信号倒谱系数和卷积神经网络得到噪声信号与颤振之间的关系,在削切过程中,通过噪声信号即可判断出是否发生颤振,解决现有技术中检测颤振的方式适用性差的问题。
  • 语音识别方法和装置-201510504840.6
  • 刘孟竹;唐青松;张祥德 - 北京眼神智能科技有限公司
  • 2015-08-17 - 2019-05-07 - G10L25/24
  • 本发明公开了一种语音识别方法和装置,属于机器学习和语音识别领域,所述方法包括:获取待识别的语音信号;采用MFCC算法对所述语音信号进行特征提取,得到MFCC特征;将所述MFCC特征输入预先训练好的RNN,得到识别出的文本信息。其中,所述RNN通过逐层训练得到,所述RNN包含若干隐含层,当隐含层为非递归层时,只训练该层与前一层连接的权重矩阵和偏差向量参数,当隐含层为递归层时,只训练该层与前一层连接的权重矩阵、偏差向量、该层的层内连接的权重矩阵和初始状态激活值参数。与现有技术相比,本发明具有速度快、精度高的优点。
  • 一种降低VOIP通信资源开销的系统和方法-201510638936.1
  • 王珂;孙瑞浩;张鹤立;李曦;纪红 - 北京邮电大学
  • 2015-09-30 - 2019-02-22 - G10L25/24
  • 本发明公开了一种降低VOIP通信资源开销的系统,包括输入层,卷积层,子采样层和输出层,每一层均由特征图谱构成,每一维特征图谱含有神经元;应用该系统降低VOIP通信资源开销的方法,具体为:一、训练卷积神经网络系统;二、初始化卷积神经网络系统;三、将待测语音输入VAD系统;四、按序每一帧提取语音特征参数MFCC及其一阶差分特征参数;五、将每一帧参数组成一维特征图谱带入卷积神经网络系统;六、卷积神经网络系统将按序输出待测语音每一帧的结果[x,y],VAD系统判决并记录结果。优点在于:将卷积神经网络系统引入到VAD系统进行检测,降低VAD系统的误判率,节省计算时间和带宽,能够在保证通信质量的情况下减少VOIP的语音资源开销。
  • 用于处理信号的方法和装置-201810795437.7
  • A.曼索尔;K.德塞尔;S.莱迪希 - 罗伯特·博世有限公司
  • 2018-07-19 - 2019-01-29 - G10L25/24
  • 本发明涉及一种用于处理信号的方法,其中该方法具有读入信号的步骤、以及在使用多个带通滤波器的情况下对该信号进行滤波的步骤,以便每个带通滤波器获得经带通滤波的信号,其中这些带通滤波器对于信号的不同频率范围是可通过的。该方法还包括求取至少多个经带通滤波的信号的至少各一个信号参数的步骤、以及对多个经带通滤波的信号或者在使用信号参数的情况下从中导出的信号进行模数转换的步骤,其中在模数转换步骤中使用多个模数转换器单元,所述多个模数转换器单元的数量小于在滤波步骤中使用的带通滤波器的数量。
  • 一种基于机器学习的反黑飞声探测方法-201811070678.1
  • 韦娟;王立宏;郑伟哲;宁方立 - 西安电子科技大学;西北工业大学
  • 2018-09-13 - 2019-01-18 - G10L25/24
  • 本发明提出一种基于机器学习的反黑飞声探测方法,采集包含无人机噪声信号以及不存在无人机的环境噪声信号的训练样本;之后对训练样本进行以下处理:对声音信号进行分帧,将若干个采样点作为一帧信号;计算每帧信号的短时平均能量、短时平均过零率、线性编码预测系数及其反射系数;并使用改进的梅尔频率倒谱系数方法计算每帧信号新的梅尔频率倒谱系数,最后将所有计算值组成一维特征向量;利用样本训练集,对多层感知机进行训练,获得最优模型;在获得新的声音信号后,采用与上面相同的处理方式得到特征向量,利用特征向量输入最优模型进行分类识别,得到识别结果。本发明经过测试样本测试,在距离为150米的条件下,测试准确率F1值要比现有技术高7%。
  • 声学特征提取方法、装置、存储介质及终端设备-201811273425.4
  • 陈岩 - OPPO广东移动通信有限公司
  • 2018-10-30 - 2019-01-04 - G10L25/24
  • 本申请实施例中提供的一种声学特征提取方法、装置、存储介质及终端设备,该方法包括:获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。
  • 一种基于音频特征参数的多语种场景分析方法-201810962497.3
  • 龙华;周金傲;邵玉斌;杜庆治 - 昆明理工大学
  • 2018-08-22 - 2018-12-18 - G10L25/24
  • 本发明涉及一种基于音频特征参数的多语种场景分析方法,属于音频信号处理技术领域。针对多段不同内容的样本,对各种语种进行语音信号录制,分别对每个语种进行相同时间的录制,时间一定,录制软件为GoldWave,格式为Wav,录制后得到每种语种的多段对比语音信号;先进行A/D转换,然后预加重处理,再进行分帧处理,最后对语音信号进行加窗函数处理;用时域分析方法提取待测的多语种音频信号信息的时域特征参数;用频域分析方法提取待测的多语种音频信号信息的频域特征参数;用倒谱分析方法提取待测的多语种音频信号信息的倒谱特征参数;利用提取的各个语种的特征量,分析各语种之间的差异,进行多语种的场景分析和判别。
  • 用于基于情感框架的计算机化匹配的方法与装置-201810620999.8
  • C·C·多斯曼 - 想象科技(北京)有限公司
  • 2018-06-15 - 2018-11-13 - G10L25/24
  • 本申请是关于用于基于情感框架的计算机化匹配的方法与装置。根据本申请一实施例的用于基于情感框架的计算机化匹配的方法可包括:接收来自用户的至少一音频信号;自该至少一音频信号中提取特征以产生具有第一维度的第一特征矩阵;将该第一特征矩阵转换为具有第二维度的第二特征矩阵,该第二维度小于该第一维度;将该第二特征矩阵与潜在匹配对象的数据馈送至匹配模型;以及由该匹配模型为该用户产生匹配结果。本申请实施例可以更准确、有效的方式自用户语音中提取特征并降低特征的维度,以便可基于情感框架而非使用模式获得更成功的匹配。
  • 一种基于输出的客观语音质量的评估方法-201710475912.8
  • 李庆先;刘良江;王晋威;朱宪宇;熊婕;李彦博 - 湖南省计量检测研究院
  • 2017-06-21 - 2018-06-15 - G10L25/24
  • 本发明提供一种基于输出的客观语音质量评估的方法,包括以下步骤:计算经过系统传输后的失真语音的梅尔频率倒谱系数;获得符合人耳听觉特性的参考模型;将失真语音的梅尔频率倒谱系数与符合人耳听觉特性的参考模型进行一致性量度计算;在原始语音中插入一段序列,计算在经过系统传输后的失真语音中提取出来该序列的误码率;根据一致性量度和误码率建立主观MOS分和一致性测度之间的映射关系,得到对待评价语音MOS分的客观预测模型,通过所述客观预测模型进行语音质量的客观评价。应用本发明的方法,步骤精简,使用方便,且能够有效地客观评估语音的质量,不依赖主观评价。 1
  • 一种音频识别系统-201710766382.2
  • 黄锐;张楠赓 - 北京嘉楠捷思信息技术有限公司
  • 2017-08-30 - 2017-12-29 - G10L25/24
  • 本发明公开了一种音频识别系统,用以提高音频识别的准确度。所述系统包括声源定向单元,用于从收集到的多路音频信号中确定入射角度为预设角度的N路音频信号;卷积特征图获取组件,用于获取所述N路音频信号对应的N张卷积特征图;梅尔倒谱系数获取组件,用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征;全连接神经网络单元,用于根据N张特征图,以及N个梅尔频率倒谱系数特征计算所述N路音频信号的音频分类与识别结果。采用本发明所提供的系统,在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力,提高了音频识别的准确度。
  • 一种声纹身份认证装置及其认证优化方法和系统-201710692088.1
  • 王炜婷;温坤华;朱慧广;陈俊 - 广东工业大学
  • 2017-08-14 - 2017-12-15 - G10L25/24
  • 本发明公开一种声纹身份认证装置的认证优化方法,包括提取注册语音信号对应的梅尔倒谱系数,并对其进行预设编号绑定;将梅尔倒谱系数作为输入层,将其绑定的编号作为输出层,进行区分深度置信网络训练,并获得其参数空间;将梅尔倒谱系数输入区分深度置信网络,以获得其隐层输出,并将其作为特征向量;将各特征向量作为输入构建高斯混合模型;将任意一个注册语音信号对应的梅尔倒谱系数输入区分深度置信网络,以获得其多个隐层输出,并选择区分度高于预设阈值的隐层输出作为训练数据,对高斯混合模型进行更新。本发明将注册人在后续自然发生变化的语音信号作为训练数据,更新高斯混合模型,使其更加适应于注册人的当前发声状态,保证识别率。
  • 一种基于向量机框架的多通道语音活动检测方法-201710499621.2
  • 万新旺;廖鹏程;王吉;沈利祥 - 南京邮电大学
  • 2017-06-27 - 2017-12-01 - G10L25/24
  • 本发明公开了一种基于支持向量机(SVM)框架的多通道语音活动检测方法。针对传统的语音活动检测方法容易引入较大的噪声,并且难以根据环境的变化而自动调整阈值,本发明利用麦克风阵列融合了语音信号的时空信息特点,结合贴近人耳感知特性的梅尔频率倒谱系数(MFCC),使用具有较好分类能力的支持向量机(SVM)来对语音/非语音进行分类,建立了针对语音和非语音的模型,能够准确的进行语音活动检测,有效的解决了在传统的语音活动检测算法的问题。
  • 一种汉语耳语音的基频估计方法-201410705012.4
  • 陈雪勤;刘正;赵鹤鸣;俞一彪 - 苏州大学
  • 2014-11-28 - 2017-07-21 - G10L25/24
  • 本发明公开了一种汉语耳语音的基频估计方法,具体步骤包括建立一个语料一致的耳语音和正常语音数据库;分别提取耳语音的LPCC参数Lw、正常语音的LPCC参数Ln和基频参数F0,并按照Lw和Ln进行DTW对齐;将正常语音的F0在100~300Hz之间按照5Hz一个间隔划分,共产生40个区间;将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中,将每个区间中的所有耳语音LPCC矢量训练为一个GMM模型,同时将该区间中所有耳语音LPCC矢量与正常语音F0参数构成的联合矢量训练为一个GMM模型并得到一个估计函数,共40个估计函数;提取耳语音的LPCC参数,将其与每一个GMM模型匹配,搜索最佳匹配的模型,然后采用该模型的估计函数估计耳语音的F0值。本发明能够估计耳语音的基频,有效解决汉语耳语音由于基频信息缺失带来的困难。
  • 一种基于语音帧间动态信息提高语音识别鲁棒性的方法-201410281239.0
  • 刘明;王明江 - 哈尔滨工业大学深圳研究生院
  • 2014-06-20 - 2017-05-17 - G10L25/24
  • 本发明为大规模孤立词语音识别提供了一种提高识别鲁棒性的方法。本发明的方法引入了不同语音帧之间的相关性,为语音识别的特征参数加入了动态特征。同时通过CASA方法将噪声环境下的语音进行了噪声消除,扩大了语音识别应用领域的范围。本发明待识别孤立词为10240词,实验结果表明,在将语音帧间信息作为动态参数加入到语音特征参数后,平均每个词汇的第一识别概率和第二识别概率的差值增大了30%。
  • 一种音频信号回声检测方法-201610169131.1
  • 杜鹢;杨俊;郑泽俊 - 成都普创通信技术股份有限公司
  • 2016-03-23 - 2016-08-10 - G10L25/24
  • 本发明公开了一种音频信号回声检测方法,对音频信号的功率倒谱分段计算峰度数值,并与预设的阈值相比较,进而根据比较结果判断音频信号中是否存在回声,从而在不需要参考信号的基础上,实现在音频信号传输过程中实时检测是否存在回声,检测准确性高,客服了传统的检测方法受制于参考源,检测的准确性很难保证的问题。
  • 一种基于HMM的选矿设备故障异常音频分析与识别方法-201510641597.2
  • 胡勇 - 金陵科技学院
  • 2015-09-30 - 2016-01-13 - G10L25/24
  • 本发明提供一种基于隐马尔可夫模型(Hidden Markov Model,HMM)的选矿设备故障异常音频分析与识别方法,涉及数字音频处理技术领域。该方法包括:输入WAV格式的选矿设备音频信号,对采集的音频样本进行预处理,提取线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和美尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等特征作为特征参数,利用Baum-Welch算法进行训练,通过训练得到状态转移概率矩阵,识别时采用Viterbi算法,通过计算未知音频信号在转移过程中的最大概率,并根据最大概率对应的模型进行识别。本发明能有效地侦测音频信号中的异常声响,从而有效识别选矿设备故障异常。
  • 异常声音检测和识别系统-201410752399.9
  • 冯秀霞 - 黑龙江真美广播通讯器材有限公司
  • 2014-12-11 - 2015-03-11 - G10L25/24
  • 异常声音检测和识别系统,是一种基于短时处理异常声音检测和识别技术,通过对异常声音进行采集、预处理、然后进行整合形成样本库,然后对样本库进行预加重、加窗分帧,最后进行特征提取,识别出结果,在安全监控方面应用可以使得在的目标跟踪系统和安全监控系统更加的完善了,性能更好了,实现方法更加简单了,系统的智能型越来越高了,在工业领域应用可以降低人工排检效率,提高生产率,有利于工业生产向着小型化、网络化、自动化、智能化的方向发展。
  • 一种水下目标gammachirp倒谱系数听觉特征提取方法-201310488534.9
  • 杨益新;吴姚振 - 西北工业大学
  • 2013-10-17 - 2014-02-05 - G10L25/24
  • 本发明提出的一种水下目标gammachirp倒谱系数听觉特征提取方法,以傅里叶变换和对数压缩为基础,结合gammachirp听觉滤波器组,首先对实测的噪声数据进行预处理,以使目标信号在短时内表示为近似平稳,然后对预处理后的数据进行傅里叶变换,将时域信号处理转化为频域信号进行处理,接着让其通过gammachirp听觉滤波器组进行听觉滤波并使用对数压缩,最后对对数压缩后的数据进行离散余弦变换,使其维数降低。这种基于gammachirp频率听觉感知倒谱系数的特征提取方法,可以提取出水下目标辐射噪声有效的听觉特征,从而提高水下目标的正确识别率。
  • 一种会议音频中的精彩说话人发现方法-201310061167.4
  • 李艳雄;吴伟;贺前华;李广隆 - 华南理工大学
  • 2013-02-27 - 2013-06-05 - G10L25/24
  • 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top