[发明专利]一种自学习声纹识别的更新方法和装置在审

专利信息
申请号: 201711477151.6 申请日: 2017-12-29
公开(公告)号: CN108231082A 公开(公告)日: 2018-06-29
发明(设计)人: 陈书东 申请(专利权)人: 广州势必可赢网络科技有限公司
主分类号: G10L17/02 分类号: G10L17/02;G10L17/00
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 王仲凯
地址: 510000 广东省广州市天*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种自学习声纹识别的更新方法和装置。本发明中当用户选择验证时,接收待验证语音并提取待验证声纹特征,判断待验证声纹特征与时间最新的融合声纹特征的匹配值符合预置声纹评估标准的要求,声纹验证通过,判断待验证声纹特征符合融合条件后,将待验证声纹特征作为素材声纹特征,确保满足融合条件的素材声纹特征是用户本人发起的验证操作,选取时间最新的素材声纹特征进行融合得到新的融合声纹特征,整个过程中选取时间最新的素材声纹特征得到新的融合声纹特征,同时选取时间最新的融合声纹特征对待验证声纹特征进行验证,解决了当前的声纹识别技术会因为声纹漂移而降低正确率的技术问题。
搜索关键词: 声纹特征 验证 融合 声纹识别 素材 方法和装置 自学习 声纹 漂移 评估标准 声纹验证 正确率 更新 预置 匹配 语音
【主权项】:
1.一种自学习声纹识别的更新方法,其特征在于,包括:S1、接收验证指令和待验证语音,根据所述验证指令对所述待验证语音进行声纹特征提取得到待验证声纹特征,并将所述待验证声纹特征与用户声纹库中时间最新的第一预置对比数量的融合声纹特征进行相似度比对得到第一预置对比数量的匹配值;S2、判断所述匹配值是否符合预置声纹评估标准的要求,若是,则声纹验证通过并将所述待验证声纹特征加入自学习观察声纹特征库;S3、判断预置时间内是否接收到对所述验证指令进行撤销或举报的反馈指令,若否,将所述待验证声纹特征作为新的素材声纹特征加入用户声纹库;S4、选取用户声纹库中时间最新的第一预置融合数量的素材声纹特征进行融合得到新的融合声纹特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州势必可赢网络科技有限公司,未经广州势必可赢网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711477151.6/,转载请声明来源钻瓜专利网。

同类专利
  • 一种采用感知听觉场景分析的缺失数据特征说话人识别方法-201610114968.6
  • 吴迪;陶智;赵鹤鸣;张晓俊;肖仲喆;冯哲 - 常熟苏大低碳应用技术研究院有限公司
  • 2016-03-01 - 2019-11-12 - G10L17/02
  • 本发明针对现有的缺失数据特征方法在低信噪比环境下鲁棒性较差的问题,提出了一种感知听觉场景分析(Perception Auditory Scene Analysis,PASA)的MDF提取方法,进一步提高MDF方法的鲁棒性。PASA方法解决了两个关键问题。一,由oracle掩码估计出的可靠语音并不完全正确,特别在低信噪比的情况下,噪声的随机特性导致很多噪声特征谱被估计成语音特征谱。二,在低信噪比的情况下,缺失数据特征的方法在提取特征时,有一些语音的场景,被估计出的可靠部分很少,不可靠部分很多。这种语音帧的不可靠部分全部由补偿的值代替,由此估计出的特征谱的鲁棒性较差。本发明解决了这两个问题。
  • 语音模型训练方法、装置、设备及计算机可读存储介质-201910744145.5
  • 陈昊亮;罗伟航 - 广州国音智能科技有限公司
  • 2019-08-13 - 2019-11-08 - G10L17/02
  • 本发明公开了一种语音模型训练方法、装置、设备及计算机可读存储介质,所述方法包括:获取目标说话人的语音数据,并将所述语音数据划分为多个语音数据段;从所述多个语音数据段中分别提取声纹特征,得到多个声纹特征向量;按照预设排序方式对所述多个声纹特征向量进行排序,并基于排序结果选取目标声纹特征向量;基于所述目标声纹特征向量对待训练模型进行训练,得到所述目标说话人的语音识别模型。本发明实现了即使目标说话人的语音数据不纯净时,能够从不纯净的语音数据中提取出能够精确表征目标说话人声纹特征的声纹特征向量,并基于精确的声纹特征向量训练得到目标说话人的语音识别模型,从而提高了目标说话人语音识别模型的精确度。
  • 基于神经网络的说话人确认方法、装置、设备及存储介质-201910598357.7
  • 王健宗;赵峰 - 平安科技(深圳)有限公司
  • 2019-07-04 - 2019-11-05 - G10L17/02
  • 本申请实施例公开了一种基于神经网络的说话人确认方法、装置、设备及介质,涉及人工智能生物特征识别技术领域。该方法包括:接收第一音频;对第一音频执行数据预处理,获取符合预设的三维卷积神经网络的输入要求的有效音频数据;调用三维卷积神经网络,将有效音频数据输入三维卷积神经网络;匹配第二音频并计算有效音频数据和第二音频的相似度;当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。本申请通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
  • 一种基于事件检测的说话人分割方法-201610269816.3
  • 肖阳;赵友东;孟宪权;徐冠峰;叶永林;徐松华;武志强;肖泽苹;谢湘 - 中国人民解放军总参谋部陆航研究所
  • 2016-04-28 - 2019-10-25 - G10L17/02
  • 本发明涉及一种一种基于事件检测的说话人分割方法,属于音频信号处理技术领域;该方法包括说话人分割、事件检测、说话人分割结果修正三个步骤:说话人分割步骤对输入音频通过采用现有距离度量法确定说话人跳变点,并依据跳变点分割音频得到不同长度的音频段,即初始说话人分割结果;事件检测步骤基于事件的时域特征检测出输入音频的事件点;说话人分割结果修正步骤基于事件点对初始说话人分割结果进行基于概率统计的修正,从而得到最终的说话人分割结果。对比现有技术,针对对讲语音本发明方法能够充分利用音频中的信息进行说话人分割,在信道变化、噪声大且说话人较多的情况下,比现有说话人分割方法有较大的性能提升。
  • 一种超矢量的说话人辨认方法-201610817892.3
  • 孙林慧;欧国振;薛海双 - 南京邮电大学
  • 2016-09-12 - 2019-10-18 - G10L17/02
  • 本发明公开了一种超矢量的说话人辨认方法,包括训练阶段和实测阶段。前者包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型。后者包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。本发明利用原始超矢量的相邻均值矢量间的高相关性,实现了平滑数据的过渡,降低计算复杂度,对GMM组成超矢量的各个均值向量进行重新组合,使其更加契合SVM对数据处理的机制。通过选择适当的超矢量重组方式,有效提升系统的识别性能,减少了运算时间。
  • 基于语音识别的会议记录生成方法、装置及存储介质-201910627403.1
  • 林子童;邵嘉琦;刘屹;肖金平;郭翼斌;万正勇;沈志勇 - 招商局金融科技有限公司
  • 2019-07-11 - 2019-10-15 - G10L17/02
  • 本发明揭露了一种基于语音识别的会议记录生成方法,该方法包括:接收用户发出的会议记录生成指令,获取待转换音频;对所述待转换音频进行句子划分,得到所述待转换音频的音频句子;分别从识别出的所述音频句子中提取声纹特征,将各音频句子对应的声纹特征与预设声纹特征库进行比对分析,确定各音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合;调用各语音段对应的目标语音识别模型,依次得到各语音段对应的文本;及,生成所述待转换音频对应的会议记录。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可提高会议记录生成的准确性及效率。
  • 一种音频指纹提取方法及装置-201810273669.6
  • 李根;李磊;何轶 - 北京字节跳动网络技术有限公司
  • 2018-03-29 - 2019-10-11 - G10L17/02
  • 本公开涉及一种音频指纹提取方法及装置,该方法包括:将音频信号转换成声谱图;确定所述声谱图中的特征点;在所述声谱图上,为所述特征点确定一个或多个掩模,每个所述掩模包含多个谱区域;确定每个所述谱区域的均值能量;根据所述掩模中的所述多个谱区域的均值能量确定音频指纹比特;判断所述音频指纹比特的可信程度以确定强弱权重比特;将所述音频指纹比特和所述强弱权重比特进行组合,得到音频指纹。
  • 虚拟助理激活-201680012625.7
  • S·O·勒梅;B·J·纽厄多普;J·R·达斯科拉 - 苹果公司
  • 2016-03-08 - 2019-10-08 - G10L17/02
  • 本发明公开了一种方法,所述方法包括:在具有显示器、麦克风和输入设备的电子设备处:当所述显示器开启时,经由所述输入设备接收用户输入,所述用户输入满足预定条件;根据接收到满足所述预定条件的所述用户输入,对经由所述麦克风接收的音频输入进行采样;确定所述音频输入是否包含语音触发;并且根据确定音频输入包含所述语音触发,触发虚拟助理会话。
  • 一种用于监测生猪异常声音的方法及系统-201910577813.X
  • 关猛;岳增显;李惠娟;王政国 - 北京派克盛宏电子科技有限公司
  • 2019-06-28 - 2019-08-30 - G10L17/02
  • 本发明公开了一种用于监测生猪异常声音的方法及系统,其中,用于监测生猪异常声音的方法,包括以下步骤:S101.采集生猪异常声音标准信号;S102.对所述生猪异常声音标准信号进行特征参数的提取,根据所述特征参数建立声音识别模型;S103.通过声音采集设备采集猪舍内生猪现场声音信号;S104.将所述生猪现场声音信号输入所述声音识别模型进行识别;S105.输出识别结果。本发明能够实时的监听生猪发出的声音,并通过声音识别模型判断识别生猪发出的声音是否为异常声音(如猪咳嗽声、猪撕咬声),进而可以及时知晓生猪是否发生异常行为,以便及时的采取对应的措施,保证猪群的正常生长。
  • 一种语音性别的估计方法、装置、系统及存储介质-201910539105.7
  • 姚灿荣;尤俊生;高志鹏 - 厦门市美亚柏科信息股份有限公司
  • 2019-06-20 - 2019-08-16 - G10L17/02
  • 本发明提供了一种语音性别的估计方法、装置、系统及存储介质,所述方法包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。根据本发明的方法、装置、系统及存储介质,对语音数据进行特征提取后,通过建立的语音性别估计模型进行语音估计,从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计,提升用户体验。
  • 基于高斯超矢量和深度神经网络的说话人识别方法-201910271166.X
  • 曾春艳;马超峰;武明虎;朱栋梁;赵楠;朱莉;王娟 - 湖北工业大学
  • 2019-04-04 - 2019-08-09 - G10L17/02
  • 本发明公开了一种基于高斯超矢量和深度神经网络的说话人识别方法,包括说话人特征提取阶段,深度神经网络设计阶段,说话人识别与决策阶段,本发明通过深度神经网络与说话人识别系统模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明提出的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。
  • 一种声纹识别系统及其识别方法-201910318199.5
  • 牛茂权 - 山东优化信息科技有限公司
  • 2019-04-19 - 2019-07-26 - G10L17/02
  • 本发明公开了一种声纹识别方法及其系统,声纹拾取设备连接到析设备,分析设备内置有识别单元,分析设备连接到语音转换器以及扬声器设备以及接收设备,语音转换器的输出端连接到显示设备,声纹拾取设备连接到识别单元的语音信号预处理模块,语音信号预处理模块连接到特征参数提取模块,特征参数提取模块连接到算法优化模块,算法优化模块连接到网络训练及识别模块,网络训练及识别模块的连接语音转换器以及扬声器设备以及接收设备。声纹识别方法包括如下步骤:(1)声纹的拾取;(2)语音信号的预处理;(3)特征参数提取;(4)算法优化;(5)网络训练及识别。本发明计算速度快,准确性更高。
  • 声纹识别方法、装置、设备以及计算机可读存储介质-201910182453.3
  • 徐凌智;王健宗 - 平安科技(深圳)有限公司
  • 2019-03-12 - 2019-07-23 - G10L17/02
  • 本发明公开了一种声纹识别方法、装置、设备以及计算机可读存储介质,该声纹识别方法包括:获取待识别的验证语音;采用GMM‑UBM模型提取验证语音的第一声纹特征,采用神经网络模型提取验证语音的第二声纹特征;将验证语音的第一声纹特征与第二声纹特征进行特征融合,得到验证语音的融合声纹特征向量;计算验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度;基于相似度,判定验证语音的声纹识别结果。两个模型分别对验证语音提取特征并用来进行语音验证,相较于单一模型提取验证语音的特征并进行语音验证而言,两个模型提取的特征所包含的信息更加全面,从而使得声纹识别的准确率得到提高。
  • 一种基于语音的身份识别方法、装置和电子设备-201810012538.2
  • 王丹;张扬 - 北京搜狗科技发展有限公司
  • 2018-01-05 - 2019-07-12 - G10L17/02
  • 本发明实施例提供了一种基于语音的身份识别方法、装置和电子设备,其中,所述方法包括:接通陌生用户的来电后,从所述陌生用户的语音数据中提取对应的语音特征;采用所述语音特征与声纹模型进行匹配,确定所述语音特征匹配的已知用户;依据所述匹配的已知用户确定所述陌生用户的身份信息;从而能够根据陌生用户的语音特征有效的识别其身份。
  • 基于先验知识规整协方差的概率线性鉴别说话人识别方法-201510560667.1
  • 李明;蔡炜城 - 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
  • 2015-09-02 - 2019-07-09 - G10L17/02
  • 本发明公开一种基于先验知识规整协方差的概率线性鉴别说话人识别方法,该能够根据任意关于训练语音的有用信息去规整概率线性鉴别分析模型的协方差假设以及迭代过程,最终训练出更具有区分性、更能反映真实情况的概率线性鉴别分析模型。同时,引入两个规整系数使得模型可调,能针对各类不同的规整信息进行自适应达到最优。采用本发明训练得出的模型比传统模型在相同数据集上得出的说话人识别评测效果有明显提升,在国际权威说话人识别评测数据库中能使等错误率(EER)和最小检测错误代价(norm minDCF)相对下降10%‑20%。
  • 身份向量处理方法和装置-201610560347.0
  • 李为;黄飞跃;吴永坚;吴富章;李科;金星明;钱柄桦 - 腾讯科技(深圳)有限公司
  • 2016-07-15 - 2019-07-05 - G10L17/02
  • 本发明涉及一种身份向量处理方法和装置,所述方法包括:获取样本集合,所述样本集合包括多个说话人类别的身份向量的样本;获取所述样本集合中每个样本所对应的类间近邻样本;获取所述样本集合中每个样本所对应的类内近邻样本;根据所述样本集合中各样本和相应类间近邻样本确定类间差异量;根据所述样本集合中各样本和相应类内近邻样本确定类内差异量;获取基向量组,所述类间差异量投影到所述基向量组中各基向量的值最大化,且所述类内差异量投影到所述基向量组中各基向量的值最小化;根据所述基向量组对待处理的身份向量进行特征变换。本发明提供的身份向量处理方法和装置,经过特征变换后的身份向量具有很好的类间区分性和类内聚集性。
  • 一种基于呼吸特征的说话人识别方法-201610626034.0
  • 鲁力;刘玲霜 - 电子科技大学
  • 2016-08-02 - 2019-07-05 - G10L17/02
  • 本发明公开了一种基于呼吸特征的说话人识别方法,该方法主要包括:输入未知语音片段,通过由梅尔频率倒谱系数MFCC建立的呼吸模板、过零率ZCR和短时能量E来提取未知语音片段中的呼吸音,然后利用消除虚假低谷的边界检测算法剔除呼吸音中的假阳性部分,得到精确分离后的呼吸音,最后利用精确分离后的呼吸音来辨别未知语音片段的说话人是否来自样本说话人以及判断未知语音片段的说话人是否为合法说话人。本发明首次实现了人体呼吸的独特性得到关注和研究,并被有效应用于说话人识别系统,克服了基于呼吸的说话人识别技术的开发利用面临的“呼吸信号的提取”和“呼吸信号处理”两大挑战。因而本发明提供的说话人识别系统简单高效,且识别结果准确可靠。
  • 一种基于声纹识别的会议管理方法及相关设备-201910119385.6
  • 王健宗;彭俊清 - 平安科技(深圳)有限公司
  • 2019-02-15 - 2019-06-28 - G10L17/02
  • 本申请实施例公开了一种基于声纹识别的会议管理方法及相关设备,所述方法应用于声纹识别技术领域,包括:从用户输入的语音数据中提取声纹信息,若声纹信息与预设声纹库中的任一声纹样本信息匹配,则控制将该目标会议室从关闭状态调整为开启状态。当用户进入目标会议室后,在视频会议过程中,终端设备可以获取发言人的声纹信息,并基于该声纹信息对发言人进行身份验证,得到该发言人的用户信息,该用户信息包括会议设备编号和个人信息,并将该用户信息发送至目标会议室的视频会议设备,以使视频会议设备根据该会议设备编号,在主显示屏中输出该发言人对应的会议画面以及该个人信息。采用本申请,可以结合声纹识别技术,实现智能化会议管理。
  • 一种基于声纹的点餐控制方法、电子设备及存储介质-201910072440.0
  • 傅峰峰 - 广州富港万嘉智能科技有限公司
  • 2019-01-25 - 2019-06-14 - G10L17/02
  • 本发明公开了一种基于声纹的点餐控制方法,包括以下步骤:获取步骤:通过声音采集设备获取当前用户的语音信息;提取步骤:提取语音信息中的声音信息和声纹特征信息;第一判断步骤:判断所述声纹特征信息是否存储在服务器的声纹识别模型库中,如果是,则执行信息提取步骤;信息提取步骤:提取声音信息中的菜品名称信息,并生成点餐指令。本发明还提供了一种电子设备和计算机可读存储介质。本发明的基于位置的点餐控制方法通过区分声纹特征信息来进一步判断是否对其声音进行提取识别,这样能够使得点餐过程更为的高效。
  • 一种基于经验模态分解与MFCC的声纹识别方法及装置-201910234983.8
  • 罗庆;包亚萍;徐振宇 - 南京工业大学
  • 2019-03-25 - 2019-06-14 - G10L17/02
  • 本发明实例公开了一种基于经验模态分解与MFCC(Mel Frequency Cepstrum Coefficient,MFCC)的声纹识别方法及装置,涉及语音信号处理及计算机技术领域,该方法通过提取经验模态分解之后的语音信号的瞬时特征参数,与传统梅尔特征参数融合,构成改进特征参数用于声纹识别;该装置包括数据采集模块、高速数据传输模块、算法实现模块、数据存储模块及用户界面模块。本发明能够提高身份认证的效率及其准确性,改善系统的噪声鲁棒性,缩短响应时间的同时带来较好的用户体验。
  • 基于环境噪声变化检测的说话人语音回放鉴别方法及系统-201611062202.4
  • 张帆;张良 - 湖北大学
  • 2016-11-23 - 2019-06-14 - G10L17/02
  • 本发明涉及一种说话人语音回放鉴别方法及系统,属于,具体涉及一种基于环境噪声变化检测的说话人语音回放鉴别方法及系统。本发明通过对待检测语音前后环境噪声的变化,检测是否因为录音设备的播放而引入了新的噪声(包括由播放设备信道特征引入的噪声),从而判断是否为录音回放,使得可以再不依赖特定文本的语音检测中,实现ASV系统的录音回放攻击检测,可以防止ASV系统因录音回放攻击而引起的安全隐患,完善声纹认证的安全保障;同时由于是对播放设备的检测,因此对于语音合成入侵和语音转换入侵的检测,也具有辅助作用。
  • 语音认证方法、信息处理设备以及存储介质-201711268086.6
  • 刘柳;石自强;刘汝杰 - 富士通株式会社
  • 2017-12-05 - 2019-06-11 - G10L17/02
  • 本公开提供了语音认证方法、信息处理设备以及存储介质。该语音认证方法包括:随机生成由预定素材集中的元素构成的认证序列;提示被测用户以语音方式输入认证序列,得到待认证语音序列;从待认证语音序列中提取语音特征;以及将所提取的语音特征输入到判别模型,以判断被测用户是否为特定注册用户,其中,判别模型基于从注册模型库中选择的、分别与认证序列的各个元素相对应的多个注册语音模型,其中,注册模型库包括分别与预定素材集中的各个元素相对应的注册语音模型,每个元素的注册语音模型是基于从特定用户对该元素的相应语音输入中提取的语音特征而单独预先训练得到的。
  • 基于语音操作指令识别用户特定身份的方法、装置及系统-201910229227.6
  • 刘红强 - 出门问问信息科技有限公司
  • 2019-03-25 - 2019-05-31 - G10L17/02
  • 本发明实施例公开了一种基于语音操作指令识别用户特定身份的方法、装置及系统,该方法包括:对预获取的语音操作指令进行预处理,获取与语音操作指令对应的特征标签;将特征标签输入至预建立的训练模型中进行预测,获取预测结果;根据预测结果,确定发出语音操作指令的用户特定身份。通过该种方式,可以有效识别用户的特定身份,进而在确定该特定身份和语音操作指令相对应时,执行语音操作指令,达到为特殊人群提供专用功能服务的效果。
  • 一种年龄识别方法、装置及终端设备-201910076388.6
  • 李源 - 平安科技(深圳)有限公司
  • 2019-01-26 - 2019-05-28 - G10L17/02
  • 本发明提供了一种年龄识别方法、装置及终端设备,适用于数据处理技术领域,该方法包括:提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到语音数据的第一语音向量;将第一语音向量输入至预设的神经网络模型,得到语音数据与各个年龄的对应概率,神经网络模型用于预测语音数据对应的年龄及对应概率;筛选出数值最大的对应概率对应的年龄,将该年龄判定为语音数据对应的年龄。实现了对语音声带系数+共振峰频率两个维度的年龄聚类分析,从而保证了语音年龄识别的高效准确。
  • 基于音频指纹的音素标记方法及装置-201910086808.9
  • 郑棉洲;潘雷明;陈昊亮 - 广州势必可赢网络科技有限公司
  • 2019-01-29 - 2019-05-28 - G10L17/02
  • 本发明涉及声纹鉴定技术领域,具体公开一种基于音频指纹的音素标记方法及装置,所述方法包括:提取待标记语音的音频指纹,获取所述待标记语音的音频指纹的语音频谱极点信息;将所述极点信息与音素数据库中所有的音频指纹进行对比,得到匹配值最高的N个检索音素;其中,N为自然数;判断前N个检索音素中是否存在一个检索音素的发音与待标记音素的发音一致:若是,则将N个所述检索音素确认为所述待标记语音的标记音素。本发明提供一种基于音频指纹的音素标记方法及装置,只选取频谱极点进行比对,能通过减少对比时间以达到快速标记的效果。
  • 基于基音周期混合特征参数的声纹识别方法-201510268390.5
  • 李勇明;谢文宾;王品;刘玉川;徐莎 - 重庆大学
  • 2015-05-25 - 2019-05-28 - G10L17/02
  • 本发明提供了一种基于基音周期混合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取基音周期、LPCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组合成多维特征向量、采用离散二进制粒子群优化算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM‑UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM‑UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。
  • 一种基于注意力机制的声纹特征提取方法及装置-201910101750.0
  • 冯大航;陈孝良;苏少炜;常乐 - 北京声智科技有限公司
  • 2019-01-31 - 2019-05-24 - G10L17/02
  • 本公开提供了一种基于注意力机制的声纹特征提取方法及装置,所述声纹特征提取方法包括:将目标说话人的语音频谱特征输入深度神经网络,并在深度神经网络中加入注意力层,通过注意力机制来估计不同语音帧的权重;从深度神经网络的最后一个隐层中抽取出激活值,经过加权得到声纹特征d‑vector。本公开通过引入了注意力机制来估计语音帧的权重,提升了声纹特征的区分性,能够在保证在声纹认证的情况下,提高目标说话人的通过率,降低非目标说话人的误识率,提升个性化的用户体验。
  • 一种声音转换方法及装置-201610437415.4
  • 王子亮 - 福建星网视易信息系统有限公司
  • 2016-06-17 - 2019-05-21 - G10L17/02
  • 本发明提供一种声音转换方法及装置,属于语音信号处理技术领域。所述声音转换方法主要对预存储的多个源说话人以及一个中间说话人的训练语料提取声音特征系数,建立第一联合高斯混合模型,采用待转换源说话人语料的声音特征系数对第一联合高斯混合模型自适应出第一转换模型,并通过第一转换模型把待转换源说话人的声音转换成具有中间说话人音色的声音。本发明当源说话人改变时,无须重新建立联合高斯混合模型,极大提高了智能化程度,也增加了趣味性。自适应过程中不需要对称语料,且需要估计的参数少,运算复杂度低,便于实际应用。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top