[发明专利]一种声纹识别方法和装置以及设备有效

专利信息
申请号: 202010293887.3 申请日: 2020-04-15
公开(公告)号: CN111326163B 公开(公告)日: 2023-02-14
发明(设计)人: 肖龙源;李稀敏;刘晓葳;谭玉坤;叶志坚 申请(专利权)人: 厦门快商通科技股份有限公司
主分类号: G10L17/04 分类号: G10L17/04;G10L17/02;G10L17/00;G10L17/06
代理公司: 厦门原创专利事务所(普通合伙) 35101 代理人: 梁英
地址: 361000 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种声纹识别方法和装置以及设备。其中,所述方法包括:采集至少一个用户的语音数据和个人特征,和对该采集的每个用户的语音数据进行声纹特征提取,和根据该个人特征和该声纹特征,构建关联该个人特征的至少一个共性特征的声纹特征数据库,和对该构建的声纹特征数据库中的共性特征、该个人特征和该声纹特征进行标记,以及根据待测声纹特征对应的用户的个人特征,从关联该用户的个人特征的至少一个共性特征且经标记后的声纹特征数据库中,识别出与该待测声纹特征相似度最高的声纹特征对应的用户。通过上述方式,能够实现缩短待测声纹特征与声纹特征数据库中的声纹特征进行相似度比较过程的耗时,进而能够实现提高声纹识别效率。
搜索关键词: 一种 声纹 识别 方法 装置 以及 设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010293887.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种声纹识别系统评估方法、装置、存储介质及电子设备-202311007339.X
  • 王丰;陈光科;宋富;王嘉水 - 支付宝(杭州)信息技术有限公司
  • 2023-08-10 - 2023-10-27 - G10L17/04
  • 本说明书公开了一种声纹识别系统评估方法、装置、存储介质及电子设备。在本说明书提供的声纹识别系统评估方法中,获取待评估的目标声纹识别系统与待优化对抗样本,并确定所述目标声纹识别系统的识别类型;将所述待优化对抗样本输入所述目标声纹识别系统,得到所述目标声纹识别系统对所述待优化对抗样本的识别结果;根据所述识别结果,采用预设的与所述识别类型对应的方式调整所述待优化对抗样本,得到语音对抗样本;采用所述语音对抗样本对所述目标声纹识别系统进行攻击;根据所述语音对抗样本对所述目标声纹识别系统的攻击结果,确定所述目标声纹识别系统的评估结果。
  • 音频诊断方法、装置、计算机设备和存储介质-202310974747.6
  • 徐雪;江文乐;杨洁琼;王心月 - 中国工商银行股份有限公司
  • 2023-08-03 - 2023-10-20 - G10L17/04
  • 本申请涉及一种音频诊断方法、装置、计算机设备、存储介质和计算机程序产品,可用于音频处理技术领域,也可用于金融科技领域或其他相关领域。该方法包括:对待诊断音频片段和前一音频片段进行声纹特征提取处理,得到目标声纹特征,根据前音频片段序列,得到与待诊断音频片段对应的预测音频片段,提取待诊断音频片段的背景噪声特征;分别将目标声纹特征、背景噪声特征与预测音频片段进行注意力机制处理,根据处理后的目标声纹特征、预测音频片段和处理后的背景噪声特,预测得到待诊断音频片段的真实性标签、实时性标签和背噪性标签;根据真实性标签、实时性标签和背噪性标签,确定待诊断音频片段的诊断结果。采用本方法能够提高音频诊断准确率。
  • 一种噪声环境下的自监督说话人识别模型构建方法及系统-202310364542.6
  • 张葛祥;曾鑫;姚光乐;杨强;方祖林;陈柯屹 - 成都信息工程大学
  • 2023-04-07 - 2023-10-17 - G10L17/04
  • 本发明提供了一种噪声环境下的自监督说话人识别模型构建方法及系统,方法包括如下步骤:S1.截取一段语音;S2.输入到卷积滤波层,得到特征图;S3.输入到注意力机制模块和残差模块;S4.将S3的结果输入到注意力机制模块和残差模块;S5.提取得到声学特征;S6.使用对比学习方法训练双编码器;S7.将声学特征输入到双编码器,得到特征向量;S8.对所有原始语音提取特征向量后做聚类产生伪标签;S9.通过伪标签对双编码器进行监督训练;S10.重复执行S7~S9,直至等错误率不再降低,完成模型构建。本发明可以有效抑制存在于声学特征通道和空间中的噪声信息,并减少噪声标签对自监督说话人识别准确率的影响。
  • 基于嵌入增强的超短时说话人确认方法、设备及介质-202310869117.2
  • 杨爽;刘天;黄开;李波;孙彬;晁聪;陈聪;纪发蕾 - 国网山东省电力公司菏泽供电公司
  • 2023-07-17 - 2023-10-13 - G10L17/04
  • 本发明属于说话人确认技术领域,公开了一种基于嵌入增强的超短时说话人确认方法、设备及介质。本发明方法包括如下步骤:搭建网络模型,其包括预先训练好的说话人确认模型以及增强器模型;语音在网络模型中的处理流程如下:输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入,紧接着该第一说话人嵌入输入到增强器模型后,得到相对较好的第二说话人嵌入;保持说话人确认模型的模型参数不变,使用训练语音对网络模型进行训练,从而优化增强器模型的模型参数,进而得到训练好的增强器模型;利用训练好的网络模型,对输入的语音进行说话人确。本发明利于提升现有的说话人确认模型在超短时条件下的说话人确认效果。
  • 语音IVR交互中基于声纹辨识用户身份的方法-202310825926.3
  • 林古山 - 北京微呼科技有限公司
  • 2023-07-06 - 2023-10-10 - G10L17/04
  • 本发明提出语音IVR交互中基于声纹辨识用户身份的方法,包括:获取混合声纹特征的混合声纹特征,基于所述声纹特征构建对应的混合声纹特征向量;将混合声纹特征向量输入预先训练的背景信道模型,构建出混合语音数据中的当前声纹鉴别向量;基于当前声纹鉴别向量与交互声纹数据库中的声纹特征向量进行相似度匹配得到匹配得分;若匹配得分大于或等于阈值,则根据映射关系查询交互声纹数据库中的声纹特征对应身份;可以在最大限度保留用户的声纹特征的同时,精确刻画用户说话时的背景声纹特征,并能够在识别时将这一特征去除,而提取用户声音的固有特征,能够较大地提高用户身份验证的准确率,并提高身份验证的效率。
  • 基于非稳态音频增强和多尺度注意力的声纹识别方法及系统-202310838750.5
  • 陈溪源;瞿吴吉;郁辰;徐嘉琪;何嘉玮;张睿 - 杭州电子科技大学
  • 2023-07-10 - 2023-10-10 - G10L17/04
  • 本发明公开了一种基于非稳态音频增强和多尺度注意力的声纹识别方法及系统,方法具体步骤如下:步骤S1、将输入的语音信号进行基于频谱门控的非平稳降噪;步骤S2、经非平稳降噪后的语音信号输入基于卷积与长短期记忆的实时因果语音增强网络中;步骤S3、将经过语音增强后的语音信号进行训练,得到分类文本结果;将文本结果和对应标签计算,得到损失;根据损失得到调节模型参数;直到训练结果准确性收敛,结束训练;剔除最后一层分类层,将模型的多维特征向量取出;步骤S4、取出最后一层的特征向量,分别对不同的特征向量进行余弦相似度的计算和指数型权重的划分,获得无学习样本下的语音识别准确率。
  • 一种基于局部聚类和域注意网络的说话人确认方法-202310819237.1
  • 陈仙红;吴伟;王琪;熊文梦 - 北京工业大学
  • 2023-07-06 - 2023-10-10 - G10L17/04
  • 本发明提出了一种基于局部聚类和域注意网络的说话人确认方法,属于深度学习、声纹识别领域。说话人确认方法在目标域和源域数据不匹配时,性能会大幅度下降,需要进行域自适应。现有域自适应方法有的需要访问源域的数据,有的在域自适应后会遗忘对源域数据的识别。针对这些问题,本发明提出一种基于局部聚类和域注意网络的说话人确认方法。该方法通过对目标域数据进行局部聚类来自动产生标签,从而在域自适应时无需访问源域数据。同时,为避免域自适应后的模型对源域产生遗忘,引入域注意网络。通过本发明提出的方法,在仅有无标签的目标域数据的情况下就能进行域自适应,并且模型不会遗忘对源域数据的识别,提高了说话人确认方法的性能。
  • 一种发音的纠正方法、智能终端及存储介质-201811605128.5
  • 王鹏 - TCL科技集团股份有限公司
  • 2018-12-26 - 2023-10-10 - G10L17/04
  • 本发明公开了一种发音的纠正方法、智能终端及存储介质,方法包括:将用户的读音与用户语音数据库进行对比分析,提取出用户的读音中发音异常的音节;从预设的数据库中找出与所提取的发音异常的音节相匹配的语音进行播放。本发明通过将用户的读音与标准的发音进行对比分析,提取出发音异常的音节,有助于改善用户的发音标准性,此外,本发明还根据发音异常音节找出对应的文字,以供用户反复练习,提高用户的发音标准性。
  • 声纹识别系统、方法、装置及电子设备-201910060740.7
  • 郑斯奇;索宏彬;雷赟 - 阿里巴巴集团控股有限公司
  • 2019-01-21 - 2023-09-26 - G10L17/04
  • 本申请公开了声纹识别方法和装置,声纹识别系统、方法和装置,以及,音箱和服务器。其中,声纹识别方法包括:获取已标注说话者信息的第一声纹数据集和未标注说话者信息的第二声纹数据集,从所述第一声纹数据集中学习得到第一声纹识别模型,至少通过第一声纹识别模型和第二声纹数据集训练得到第二声纹识别模型,至少基于所述第二声纹识别模型识别声纹数据。采用这种处理方式,使得利用非监督训练方式自动对声纹数据进行说话者信息的标注,避免人工方式标注数据;因此,可以有效提升数据标注的效率及准确度,从而提升声纹识别的准确度,同时可以有效降低人工成本。
  • 具有时间延迟混叠模型下的心肺音盲分离方法及装置-202310893552.9
  • 解元;张旭;马鸽;邹涛;孙为军 - 广州大学
  • 2023-07-19 - 2023-09-22 - G10L17/04
  • 本发明提供了一种具有时间延迟混叠模型下的心肺音盲分离方法及装置,其中,方法包括:通过两个传感器接收心音和肺音的混合信号;根据所述混合信号构建带有时间延迟的卷积混合模型;通过迭代投影算法将所述混合模型表示成分层矩阵的形式,并所述混合模型的相关参数进行迭代更新;对所述分层矩阵采用秩1迭代更新,实现心肺音信号的分离。本发明所提算法对心肺音混合信号分离性能的优越性,为心肺音混叠信号的盲分离研究提供新的研究思路。
  • 声纹认证方法、装置、介质及电子设备-201911059843.8
  • 冯晨;王健宗;彭俊清 - 平安科技(深圳)有限公司
  • 2019-11-01 - 2023-09-19 - G10L17/04
  • 本申请提供了一种声纹认证方法、装置、介质及电子设备。该方法包括:获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境;将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息;采集当前用户的待认证声纹信息;将预测声纹信息与待认证声纹信息进行匹配,以获得第一匹配度;若第一匹配度超过第一预设阈值,则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境,使以该预测声纹信息为标准识别出的目标用户不受时间的干扰。本申请能够进行声纹认证。
  • 音频数据存储方法和声音模型训练方法及装置-202310531672.4
  • 卢回忆;刘豪睿;刘加;曹宏;刘德广 - 北京华控智加科技有限公司
  • 2023-05-11 - 2023-09-12 - G10L17/04
  • 本公开提出了一种音频数据存储方法和声音模型训练方法及装置,涉及数据处理技术领域,该方法包括:获取待存储的音频数据,音频数据包括至少一个通道音频数据;获取通道音频数据所属通道的分段规则,基于分段规则对通道音频数据进行分段,以获取分段音频数据;获取分段音频数据的存储维度,基于存储维度对分段音频数据进行存储。通过设定分段规则对音频数据进行分段和处理,提升后续音频数据的处理和利用的效率,减低数据处理的成本。
  • 一种声纹识别方法及系统-202310757447.2
  • 游然;何琪;王荣泉 - 中国科学院声学研究所
  • 2023-06-26 - 2023-09-05 - G10L17/04
  • 本发明提供了一种声纹识别方法及系统,所述方法包括:采集设定时长的声纹信息;对声纹信息执行声纹特征识别操作,生成玫瑰花状声纹图案;所述声纹特征识别操作包括:将声纹信息的幅频曲线的频率轴设置为圆弧形,幅度值沿频率轴呈放射状向圆弧外绘制;同时绘制多个半径、多个弧度、多个圆心坐标以及多个幅值大小的圆弧状幅频曲线,最终形成玫瑰花状声纹图案。本发明的优势在于:本发明提供的声纹识别方法,将声纹转换为玫瑰花形状的图案,以二维图片方式对声纹进行分析,形成多层次、高识别度、多样化和更形象的声纹玫瑰花图案,有利于人工对声纹的识别和记忆。
  • 基于语音分析的3D虚拟演讲者驱动方法及相关装置-202310781774.1
  • 陈观理;黄国恒;黄俊平 - 广州华腾教育科技股份有限公司
  • 2023-06-28 - 2023-09-05 - G10L17/04
  • 本申请公开了基于语音分析的3D虚拟演讲者驱动方法及相关装置,方法包括:通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码;采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征,模型包括残差块;基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征;通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数;依据口型系数、头部运动系数和预置手部动作对3D虚拟演讲者驱动。本申请能解决现有技术仅考虑语音驱动的口型变化情况,忽略其他动作形态,且驱动因素仅分析语音,太过单一,导致三维虚拟演讲者动作驱动效果较差的技术问题。
  • 个性化说话者验证系统和方法-202080000759.3
  • 王志铭;姚开盛;李小龙 - 支付宝(杭州)信息技术有限公司
  • 2020-01-09 - 2023-09-05 - G10L17/04
  • 提供了用于个性化说话者验证的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法之一包括:获得说话者的第一语音数据作为正样本,以及与说话者不同的实体的第二语音数据作为负样本;将正样本和负样本馈送到第一模型以确定人声特性,从而相应地输出说话者的正人声特性和负人声特性;至少基于正人声特性和负人声特性获得梯度;将梯度馈送到第一模型,以更新第一模型的一个或多个参数,从而获得用于个性化说话者验证的第二模型。
  • 一种声纹识别方法、装置、终端及存储介质-202310769243.0
  • 王宇;徐念龙;潘俊;谭泉;石林 - 王力安防科技股份有限公司
  • 2023-06-27 - 2023-08-29 - G10L17/04
  • 本发明公开了一种声纹识别方法、装置、终端及存储介质,包括:获取测试语音和训练语音,测试语音和训练语音均包括多个语音特征;将测试语音和训练语音分别输入到训练好的声纹模型中,获得测试语音中多个语音特征分别对应预设语音特征的第一后验概率矩阵,及训练语音中多个语音特征分别对应预设语音特征的第二后验概率矩阵;利用CDS相似度算法,对第一后验概率矩阵及第二后验概率矩阵进行相似度比较,得到所述测试语音的声纹识别结果。通过本发明通过分别计算测试语音和训练语音的后验概率矩阵,利用CDS相似度算法,对两个矩阵进行相似度比较,得到测试语音的声纹识别结果。通过本发明提供的方法提高了运算的速度及声纹识别的准确率。
  • 基于目标语音分离的司法场景多人对话笔录方法及系统-202310723205.1
  • 吴飞;赵洲;况琨;林宇箫;张仕良 - 浙江大学
  • 2023-06-16 - 2023-08-29 - G10L17/04
  • 本发明公开了一种基于目标语音分离的司法场景多人对话笔录方法及系统,属于语音信号处理领域。本发明针对司法场景的特点,提出了一种结合说话人日志、目标说话人分离和语音识别技术的多人对话笔录方法和系统,能够应用在司法领域的庭审、案件合议、审委会讨论等需要进行完整笔录的多人对话讨论场景中。本发明使用说话人日志系统提取的各说话人声纹特征,并实现了重叠语音分离,不受具体场地布置的限制,具有更广泛的适用性。
  • 一种基于酒花信号的智能声纹防伪方法、装置及设备-202310754289.5
  • 刘国栋;张卓清;李志健;吴家豪;孟卿君 - 陕西科技大学
  • 2023-06-25 - 2023-08-29 - G10L17/04
  • 本发明公开了一种基于酒花信号的智能声纹防伪方法、装置及设备,通过将酒花撞击瓶壁产生的声纹信号进行采集,然后对声纹信号进行去噪处理后提取PLP特征,将特征信号输入CNN‑GMM‑HMM声纹模型中进行训练构建原始标准数据库,当对样本声纹信号采集后,对其预处理后再与标准数据库中的声纹信息进行匹配和识别,达到真伪验证效果,相较于传统鉴别方式,可以更快、更准确的鉴别白酒真伪,大大提高工作效率的同时,有助于确保白酒的质量和安全。
  • 一种基于网约车车内场景的声纹识别方法-202310660041.2
  • 潘昊杰;田鹏飞 - 北京云行在线软件开发有限责任公司
  • 2023-06-06 - 2023-08-25 - G10L17/04
  • 本发明提供一种基于网约车车内场景的声纹识别方法,包括以下步骤:S1:确定原始数据集为voxceleb声纹识别数据集;S2:对原始数据集进行进行噪音和混响的数据增强处理,以及SpecAugment预处理的数据增强处理;S3:对网约车司机的声纹模型进行训练,对司机注册录取的注册声纹进行编码,并实现对比学习训练;S4:网约车司机在运营时,获取车内的语音,并进行声纹判定,进而判断车内是否只有司机一人。所述基于网约车车内场景的声纹识别方法,通过声纹识别的对比,能够检测出乘客没有上车,有效地判断网约车司机是否跑空单。
  • 声纹识别及模型训练方法、装置、设备及介质-202310727986.1
  • 张旭龙;王健宗;程宁;季圣鹏 - 平安科技(深圳)有限公司
  • 2023-06-16 - 2023-08-25 - G10L17/04
  • 本发明涉及语音处理技术领域,提供了一种声纹识别模型训练方法,该方法包括获取的音频数据集;对所有音频数据进行特征提取,得到低维音频特征;通过预设训练模型中的双向门控模块对所有低维音频特征进行特征提取,得到高维音频特征;对所有高维音频特征进行质心处理,得到质心特征;对高维音频特征和质心特征进行预测,得到预测损失值;在预测损失值达到收敛条件时,将收敛后的预设训练模型记录为声纹识别模型。本发明通过双向门控模块实现了从音频数据前后两个方向提取特征,实现了对模型的轻量化,进而提高了在保险领域或金融领域中声纹识别模型的准确性,改善了声纹识别模型的性能。
  • 一种绝缘子污闪异常声纹识别预警方法-202310706836.2
  • 李诗平;郑伙鑫;杨春林 - 厦门声百思信息科技有限公司
  • 2023-06-15 - 2023-08-22 - G10L17/04
  • 本发明公开了一种绝缘子污闪异常声纹识别预警方法,包括如下步骤:声音采集处理,通过拾音装置采集高压电塔塔头上发出的声音,并利用算法对拾取的音频进行处理得到功率谱;将功率谱转化处理得到梅尔语谱图;将音频数据根据已知类型进行标注分类训练,并利用算法的训练功能对音频进行重复训练,得出包含不同声音音频模型的最优音频模型,采用最优音频模型对音频提取特征值进行分类打分评估,并设置阈值;输入采集音频,计算得到采集音频阈值,将采集音频阈值与最优音频模型阈值进行相识度对比,应用评分系统表示阈值临近程度,评分系统根据采集音频与最优音频模型阈值比较结果确定是否报警或信息推送。本发明的方法识别准确率高,成本低,效率高。
  • 基于LED显示屏的语音播放方法、装置、设备及介质-202310703467.1
  • 肖章权;刘亮;涂俊清;舒斌;李瑞洪;刘方;丁永华 - 江西联创南分科技有限公司
  • 2023-06-14 - 2023-08-22 - G10L17/04
  • 本发明涉及语音播放技术,揭露了一种基于LED显示屏的语音播放方法、装置、设备以及介质,所述方法包括:获取音频样本数据,对所述音频样本数据进行声纹特征提取,得到音频数据集;根据所述音频数据集对预构建的音频模型进行语音训练,得到初始音频模型;获取测试数据,根据所述测试数据对所述初始音频模型进行综合评价,根据综合评价的结果对所述初始音频模型进行优化,得到目标音频模型;根据所述目标音频模型以及所述显示屏系统生成音频播放程序;获取待播放语音,根据所述音频播放程序对所述待播放语音进行语音解析,得到语音文件,根据所述语音文件生成目标显示内容。本发明可以提高显示屏信息与语音同步播放的准确性。
  • 通信背景生成模型的建模方法、使用方法及相关设备-202310592486.1
  • 徐馨兰;王涛;曾宇;孟维业;任宏丹 - 中国电信股份有限公司北京研究院;中国电信股份有限公司
  • 2023-05-23 - 2023-08-18 - G10L17/04
  • 本公开实施例提供了一种通信背景生成模型的建模方法、使用方法、装置、计算机设备、可读存储介质及程序,涉及人工智能领域。该建模方法包括:获取原始目标的语音数据集和通信背景的语音数据集;根据原始目标的语音数据集获取原始目标的语音数据集的语谱图;根据通信背景的语音数据集获取通信背景的语音数据集的语谱图;通过原始目标的语音数据集的语谱图和通信背景的语音数据集的语谱图对包括双生成器和双判别器的循环生成对抗网络进行训练,以完成通信背景生成模型的建模。本公开实施例提供的方案建立的故障检测模型,能够根据原始目标的语音数据以获取与原始目标的语音数据对应的通信背景的语音数据的通信背景生成模型。
  • 基于星状生成对抗网络的说话人识别系统-202310592838.3
  • 李冬冬;王喆;杨卓;王建伟 - 华东理工大学
  • 2023-05-24 - 2023-08-18 - G10L17/04
  • 本发明提供了基于星状生成对抗网络的说话人识别系统,使用流程包括如下步骤:首先将预训练多情感语音通过分帧,加窗,傅里叶快速变换处理为预训练多情感语谱图。再将预训练多情感语谱图设置说话人和情感标签,一同输入星状生成对抗网络训练说话人鉴别器,情感鉴别器与真实性鉴别器。然后将预训练多情感语谱图输入生成器并指定目标生成情感进行生成,训练生成器的生成能力。之后将注册用户中性语谱图输入星状生成对抗网络生成注册用户多情感语谱图。最后使用注册用户多情感语谱图训练说话人识别网络,并对待识别用户多情感语谱图进行说话人分类计算其概率,获取最终说话人识别结果。该系统解决了情感域不匹配带来的说话人识别精度下降问题。
  • 具备声纹注册功能的会议系统及声纹注册方法-202310860964.2
  • 杨静波;汤跃忠;陈龙;刘丹 - 北京中电慧声科技有限公司;中国电子科技集团公司第三研究所
  • 2023-07-14 - 2023-08-18 - G10L17/04
  • 本发明提出了一种具备声纹注册功能的会议系统及声纹注册方法,会议系统具有:文本框和语音评估注册弹框,文本框用于展示会议记录的语音对应的转写文字,对转写文字进行滑选操作,选中对应的转写文字,滑选操作后执行预设操作时,弹出语音评估注册弹窗,语音评估注册弹窗中包括音频评估和声纹注册选项,并设有多个声纹标签细化项,每个声纹标签细化项包括多个可选项;在进行声文注册时,选择音频评估选项对选中的转写文字对应的语音进行评估;评估合格后,从多个声纹标签细化项中选择对应的可选项形成用户画像,将对应的语音的用户画像和声纹识别特征存储至声纹库;通过选择声纹注册选项进行用户名录入,高效、准确实现用户声纹注册。
  • 一种基于深度学习的端到端说话人分割方法及系统-201811158674.9
  • 叶志坚;李稀敏;肖龙源;蔡振华;刘晓葳;谭玉坤 - 厦门快商通信息技术有限公司
  • 2018-09-30 - 2023-08-18 - G10L17/04
  • 本发明公开了一种基于深度学习的端到端说话人分割方法及系统,其通过采集第一单人语音和第二单人语音进行真实STFT特征提取、语音混合处理、混合STFT特征的提取、分割STFT特征的计算、真实STFT特征与分割STFT特征的比较、模型的优化,从而训练得到所需的模型;使用时,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
  • 鲁棒智能合成语音说话人确认模型的训练方法和系统-202310654525.6
  • 苏兆品;张国富;岳峰;李菲 - 合肥工业大学
  • 2023-06-02 - 2023-08-15 - G10L17/04
  • 本发明提供一种鲁棒智能合成语音说话人确认模型的训练方法、系统、存储介质和电子设备,涉及语音处理技术领域。本发明提供的鲁棒智能合成语音说话人确认模型,用于提高强背景噪声条件下智能合成语音的说话人确认精确度,包括语音增强网络、特征提取网络和特征增强模块。在模型的训练阶段,带噪智能合成语音数据集的训练集经过STFT特征预处理和Fbank特征预处理后分别输送到语音增强网络、特征提取网络中,并通过特征增强模块将两个网络建立联系进行联合训练,获取具有抗噪鲁棒性的说话人嵌入特征。在测试阶段,基于带噪智能合成语音数据集的测试集进行模型测试;重复执行前述训练测试交替进行的方式进行最优模型选择,直到训练迭代次数达到设定最大值。
  • 使用动态生成的短语的基于段的说话者验证-201911099048.1
  • 多米尼克·罗博列克;马修·谢里菲 - 谷歌有限责任公司
  • 2015-03-27 - 2023-08-15 - G10L17/04
  • 公开了使用动态生成的短语的基于段的说话者验证。用于验证用户的身份的计算机程序的方法、系统、和装置,包括编码在计算机存储介质上的计算机程序。所述方法、系统、和装置包括接收对用于验证用户身份的验证短语的请求的动作。附加的动作包括:响应于接收到对用于验证所述用户的所述身份的所述验证短语的所述请求,识别要被包括在所述验证短语中的子字;以及响应于识别出要被包括在所述验证短语中的所述子字,获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语。另外的动作包括:提供所述验证短语作为对于所述验证短语的所述请求的响应,所述验证短语用于验证所述用户的所述身份。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top