[发明专利]一种声音识别方法、装置、电子设备及存储介质在审

专利信息
申请号: 202111390367.5 申请日: 2021-11-23
公开(公告)号: CN114049899A 公开(公告)日: 2022-02-15
发明(设计)人: 郭颖;高家军;张旭;陈艳;范东璞;于新文;邓广;欧阳萱 申请(专利权)人: 中国林业科学研究院资源信息研究所
主分类号: G10L17/02 分类号: G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/26
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 彭星
地址: 100091*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请涉及声音识别技术领域,具体提供一种声音识别方法、装置、电子设备及存储介质,对获取的长臂猿录音数据进行预处理、提取Mel谱特征,通过将Mel谱特征训练好的长臂猿声音分类模型得到待分类长臂猿录音数据中的长臂猿音频片段,并对长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,进而记录长臂猿在目标区域的鸣叫时间,实现对长臂猿的高效监测。由于采用的长臂猿声音分类模型更为轻量化,能够快速识别出长臂猿录音数据中的长臂猿音频片段,实现对长臂猿的实时监测。
搜索关键词: 一种 声音 识别 方法 装置 电子设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国林业科学研究院资源信息研究所,未经中国林业科学研究院资源信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202111390367.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于声纹识别的音频鉴伪方法-202310875841.6
  • 郑威;云剑;凌霞;郑晓玲;周凡棣;海涵;辛鑫;刘澎 - 中国信息通信研究院
  • 2023-07-17 - 2023-10-27 - G10L17/02
  • 本发明公开了一种基于声纹识别的音频鉴伪方法,涉及特殊音频鉴伪领域,S1,获取检测音频中的音频数据,所述音频数据包括时域特征数据、IP数据和检测音频元数据;S2,通过时域特征分析模型对时域特征数据进行第一数据分析,生成时域目标;S3,通过IP比对模型对获取的IP数据进行第二数据分析,生成IP标注;S4,通过元数据分析模型对获取的检测音频元数据进行第三数据分析,生成元数据标注;S5,通过标注匹配模型将生成IP标注和元数据标注进行匹配分析,得出网络识别目标;S6,对检测音频中的时域目标和网络识别目标进行整合分析,对该检测音频生成可信度标记,本发明通过音频信号、IP数据和音频元数据等条件提供更可靠和准确的音频鉴伪结果。
  • 一种基于多层次特征融合的短语音说话人识别方法-202310986807.6
  • 张葛祥;汤刚;杨强;何瑶 - 成都信息工程大学
  • 2023-08-08 - 2023-10-27 - G10L17/02
  • 本发明公开一种基于多层次特征融合的短语音说话人识别方法,涉及说话人识别技术领域,其方法包括:通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人。
  • 声纹识别方法和装置-202210374386.7
  • 王耀光;吴彪;夏日升 - 北京荣耀终端有限公司
  • 2022-04-11 - 2023-10-24 - G10L17/02
  • 本申请实施例提供一种声纹识别方法和装置,涉及终端技术领域,方法包括:终端设备采集第一语音,得到第一语音对应的第一声纹向量;当终端设备确定第一语音满足预设条件时,终端设备获取第一声纹向量与预设的第二声纹向量的相似度得分,得到第一数值;当第一数值小于或等于第一阈值时,终端设备获取第三声纹向量与预设的第四声纹向量的相似度得分,得到第二数值;当第二数值大于第二阈值时,终端设备执行第一语音对应的任务。这样,使得终端设备可以通过模拟用户佩戴口罩场景时获取的第三声纹向量与预设的佩戴口罩时用户的声纹向量的相似度,实现用户佩戴口罩场景中的语音的精准识别,增加声纹识别方法的准确性。
  • 一种声纹识别处理方法及系统-202310900334.3
  • 崔晓飞;石磊;刘岁成;于海波;尹学海;石科峰 - 河北华网计算机技术有限公司
  • 2023-07-21 - 2023-10-24 - G10L17/02
  • 本发明涉及一种声纹识别处理方法,包括:建立穿戴设备与云端系统的通信连接;语音解锁穿戴设备,穿戴设备采集用户的语音信息形成用户声纹信息并上传至云端系统,云端系统提取用户声纹信息中的声纹特征并与云端系统的声纹特征库中的全部声纹特征进行一一比对,若声纹特征库中存在用户声纹信息中的声纹特征,穿戴设备则解锁;若穿戴设备解锁,穿戴设备则采集当前环境中的环境语音形成环境语音信息并上传至云端系统,云端系统对环境语音信息进行分析并作出不同的指令。本发明通过在施工人员身上携带可穿戴设备,然后使穿戴设备与云端系统建立连接,然后利用云端系统对施工环境中的声音进行分辨,有效的提高了施工人员的安全性。
  • 音频识别方法与多任务音频识别模型训练方法-202311013736.8
  • 郑炜乔;朱孔洋;赖荣凤;傅鸿城 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2023-08-10 - 2023-10-20 - G10L17/02
  • 本申请公开一种多任务音频识别方法,包括接收音频信号;对所述音频信号进行端点处理以获得有效音频片段;提取所述有效语音片段的声学特征向量;将有效语音片段的声学特征向量输入至经训练的多任务音频识别模型,以获得音频分类识别结果和语音内容识别结果;根据音频分类识别结果和语音内容识别结果识别音频的违规内容。本发明方案可用于快速识别上下文或情境中存在色情、低俗等违规内容,提高音频内容安全检测准确率,有效降低音频识别计算成本。
  • 一种基于特定人音频的表征构建方法-202310980913.3
  • 郑威;云剑;凌霞;郑晓玲;周凡棣;海涵;辛鑫;刘澎 - 中国信息通信研究院
  • 2023-08-04 - 2023-10-20 - G10L17/02
  • 本发明公开了一种基于特定人音频的表征构建方法,涉及音频分析技术领域,具体步骤包括:步骤S100、获取特定人音频数据中的人声数据与环境数据;步骤S200、构建人声分析模型,对人声数据进行分析并生成人声分析系数;步骤S300、对所述人声数据与环境数据进行组合分析,生成环境分析系数;步骤S400、将人声分析系数和环境分析系数进行整合处理,对所述特定人音频音频数据进行表征参数的生成;步骤S500、对表征参数进行阈值分析,通过分析结果对所述特定人音频进行表征标记,本发明考虑了环境对音频的影响,从而更加全面地分析音频的真伪;采用实时手段进行数据的获取和处理,可以对特定人音频进行实时的表征和鉴定,增加了鉴定的实时性和准确性。
  • 一种音频导读自动生成方法和系统-202310676882.2
  • 张辰;张芳 - 北京奇趣万物科技有限公司
  • 2023-06-08 - 2023-10-20 - G10L17/02
  • 本申请提供一种音频导读自动生成方法和系统,方法包括:向第一用户展示和提示所述第一用户发声阅读第一阅读材料,获取第一用户的音频记录;解析所述第一用户的音频记录,提取所述音频记录的特征信息,以获取所述第一用户的发声规律,所述发声规律为文字、拼音、声调、声纹、语速、和音强的映射关系;将所述第一阅读材料的文本、所述音频记录的特征信息和发声规律输入并训练预设神经网络;获取第二阅读材料的文本,将所述第二阅读材料的文本输入训练后的神经网络中,输出具有相同发声规律的音频导读文件;向第二用户展示所述第二阅读材料,根据用户的操作指示打开相应文本材料页数或段落,并向所述第二用户播放相应的所述音频导读文件的相应页数或段落的音频。
  • 跨信道声纹识别方法及装置-202010216418.1
  • 吕楠楠;宁博;巫昌凯;张松 - 中国工商银行股份有限公司
  • 2020-03-25 - 2023-10-13 - G10L17/02
  • 本发明公开了一种跨信道声纹识别方法及装置,其中,该方法包括:获取来自第一信道的包含作业指令的用户音频数据;将预处理后的用户音频数据输入至已训练的信道拟合器,以输出无差异音频数据;基于已训练的声纹识别模型,并根据预先存储的验证音频数据对无差异音频数据进行识别,以识别用户身份,其中,验证音频数据来自于第二信道,声纹识别模型由来自所述第二信道的历史音频数据进行训练;响应于所述用户身份识别成功,执行作业指令。通过本发明,可以可以提高跨信道声纹识别的准确率。
  • 基于声学特征生成的身份特征提取方法、设备及存储介质-202310896134.5
  • 魏光村;许云飞;张艳娜;闵航;潘志飞;方卿阁;孟春雨;郭泊言 - 山东科技大学
  • 2023-07-21 - 2023-10-13 - G10L17/02
  • 本发明属于说话人确认技术领域,公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中,长声学特征中包含的说话人特征信息多,因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征;然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。本发明利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。
  • 一种基于全局注意力机制的DenseNet-LSTM-ED的声纹识别方法-202310826924.6
  • 王鲁昆 - 江苏五正信息科技有限公司
  • 2023-07-07 - 2023-10-10 - G10L17/02
  • 本发明公开了一种基于全局注意力机制的DenseNet‑LSTM‑ED的声纹识别方法,属于声纹识别技术领域,该方法首先对语音信号分割、加窗、傅里叶变换、能量密度谱、对数变换和彩色映射得到语音信号与之对应的语谱图;然后分别利用DenseNet模块、LSTM单元和ED模块分别对语谱图进行处理,将DenseNet模块、LSTM单元的处理结果融合形成时空融合信息,ED模块对语谱图进行处理形成增强信息;接着将时空融合信息与增强信息融合形成时空增强信息,并使用全局注意力机制对其赋予不同的权重,来增加关键帧语音对识别结果的贡献度,并通过Softmax损失函数与CenterLoss损失函数联合监督的方式来实现说话人识别的分类,本发明能够有效提高声纹识别的准确率。
  • 一种声纹注册方法、装置及设备-202310867638.4
  • 班荣军 - 安徽声云智能科技有限公司
  • 2023-07-15 - 2023-10-10 - G10L17/02
  • 本发明公开了声纹注册技术领域的一种声纹注册方法、装置及设备,包括:通过录音设备记录说话人的语音数据,采集的语音数据进行语音识别,获得语音识别结果,对语音数据存储;对获取的语音样本切分为长度相同的语音帧;将语音识别得到的语音识别结果与随机内容进行比对,保存比对结果一致的语音数据作为原始文件;获取每条语音段中每个语音帧的声纹识别特征,并于声纹注册的录音文件进行声纹注册,该声纹注册方法、装置及设备,结构设计合理,能够使注册的声纹质量提高,语言采集的数据更的精准,能够在用户声音出现变化的情况下,能够精准识别,避免因声音的变化导致声纹的录制失败,能够一次性完成声纹的录制,无需反复注册。
  • 基于自蒸馏预训练和元学习微调的远场说话人确认方法-202310689924.6
  • 李艳雄;黄启晟;曹文昌;李佳龙;谭嘉昕 - 华南理工大学
  • 2023-06-12 - 2023-10-10 - G10L17/02
  • 本发明公开了一种基于自蒸馏预训练和元学习微调的远场说话人确认方法,过程如下:从近场训练语音提取对数梅尔谱特征作为网络的输入,采用自蒸馏学习方法预训练深度神经网络;接着,将远场训练语音的对数梅尔谱特征作为网络的输入,采用元学习方法微调经过预训练的网络;然后,将注册语音的对数梅尔谱特征输入经过预训练和微调的网络得到变换特征矢量,将测试语音的对数梅尔谱特征输入经过微调和预训练的网络得到变换特征矢量;最后,计算测试语音变换特征矢量与注册语音变换特征矢量之间的距离,判断二者是否来自同一个说话人。本发明方法既提高了网络训练效率,又提升了网络在注册语音与测试语音的录制环境不一致时的说话人确认准确率。
  • 一种基于语音的异常检测方法、装置、设备及存储介质-202310791225.2
  • 韩朋朋 - 中国银行股份有限公司
  • 2023-06-30 - 2023-10-10 - G10L17/02
  • 本申请实施例提供了一种基于语音的异常检测方法、装置、设备及存储介质,可应用于金融领域或其他领域,该方法包括:对待处理语音进行特征提取,得到待处理声纹特征和待处理情感特征;将待处理声纹特征和待处理情感特征输入预先训练好的分析模型,得到声纹识别结果和情感分析结果;基于声纹识别结果和情感分析结果,生成待处理语音的异常检测结果。本申请实施例将声纹识别技术和情感分析技术相结合,通过声纹识别对用户身份进行认证,通过情感分析可以更好地理解用户的情感状态,提高了身份识别和欺诈检测能力,可以确保用户数据的安全性,提高异常检测的效率。
  • 一种基于FFC-LSTM的多通道目标语音提取方法及电子设备-202310848550.8
  • 张海剑;陈佳佳;孙思雨 - 武汉大学
  • 2023-07-11 - 2023-10-10 - G10L17/02
  • 本发明公开了一种基于FFC‑LSTM的多通道目标语音提取方法及电子设备,包括声纹特征提取模块,短时傅里叶变换模块、编码器模块、解码器模块、目标说话人特征提取模块和短时傅里叶逆变换模块,其中声纹特征提取模块用于从参考语音中提取目标说话人声纹信息,短时傅里叶变换模块用于将混合语音转换为复数谱,编码器模块用于将混合复数谱编码为高维特征表示,目标说话人特征提取模块根据给定声纹特征信息从混合语音高维特征表示中提取出目标语音特征,解码器模块用于将目标语音特征映射为复数掩膜,将复数掩膜作用于混合语音复数谱得到目标语音复数谱,最后使用短时傅里叶逆变换模块将目标语音复数谱转化为目标语音时域信号。本发明具有较强的实用性。
  • 一种基于Transformer和CNN长时语音的声纹识别方法-202310813399.4
  • 张斌;徐宇强 - 桂林电子科技大学
  • 2023-07-04 - 2023-10-03 - G10L17/02
  • 本发明提供的是一种结合Transformer和CNN的一种长时语音的声纹识别方法,涉及音频识别技术领域。该方法步骤包括:S1,输入长时语音信号;S2,对长时语音进行预处理;S3,进行Fbank特征的提取;S4,进行声纹识别模型的训练;S5,特征匹配与识别;S6,输出识别结果;本发明在长时语音的声纹识别上准确率,解码速度更快,在多个数据集上验证后等错率达到了1.2%,其中在Sitw数据集上最好达到了0.9%的等错率。
  • 带情绪描述的笔录文档处理方法及装置-202310071797.3
  • 贺敏;赵岳;应志红;郭颖;王雅静 - 北京华宇信息技术有限公司
  • 2023-01-13 - 2023-10-03 - G10L17/02
  • 本申请公开了一种带情绪描述的笔录文档处理方法即装置,用以解决现有技术判断效率低的技术问题。该方法包括:获取用于表征参与制作笔录的人物声纹特征;采集制作笔录现场的音频文件;对音频文件进行转换文字的语音转写、人物情绪识别、人物声纹特征识别,以建立人物声纹特征与文字的对应关系、建立人物声纹特征与人物情绪的对应关系;根据人物声纹特征和音频特征,制作带人物情绪描述的文字型笔录。对音频文件进行语音转写、人物情绪识别、人物声纹特征识别,将转写、识别结果建立对应关系,并生成文字型笔录。这样,在后续翻看笔录的时不必重复的查看当时的语音视频记录,就可以还原当事人的情绪状态,进行研判,提高了审判员的判断效率。
  • 解耦声纹和内容的合成音频检测方法、装置、设备和介质-202310386694.6
  • 温正棋;汪智勇 - 中科极限元(杭州)智能科技股份有限公司
  • 2023-04-12 - 2023-10-03 - G10L17/02
  • 本发明实施例提供一种解耦声纹和内容的合成音频检测方法、装置、设备和介质,涉及合成音频检测技术领域。其中,这种合成音频检测方法包含步骤S1至步骤S5。S1、获取待检测音频。S2、根据待检测音频,通过深度神经网络提取声纹特征。S3、根据待检测音频,通过内容编码器提取内容特征。S4、根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。S5、根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。本发明实施例的合成音频检测方法彻底解耦音频中的说话人身份信息以及文本信息,从而对剩余部分进行深度合成检测,大大提高了识别精度,以及低鲁棒性。
  • 数据处理方法、装置及设备-202310651826.3
  • 顾艳梅;王志铭 - 支付宝(杭州)信息技术有限公司
  • 2023-06-02 - 2023-10-03 - G10L17/02
  • 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:接收待检测的目标音频数据,通过预先训练的检测模型对目标音频数据进行频谱提取处理,得到与目标音频数据对应的目标频谱数据,并通过预先训练的检测模型对目标频谱数据进行音频合成处理,得到与目标音频数据对应的合成音频数据,通过预先训练的检测模型分别对目标音频数据和合成音频数据进行声纹提取处理,得到与目标音频数据对应的第一声纹特征向量,以及与合成音频数据对应的第二声纹特征向量,基于第一声纹特征向量和第二声纹特征向量之间的相似度,对目标音频数据为合成数据或非合成数据进行判断,得到针对目标音频数据的检测结果。
  • 语谱图生成方法、装置、设备及计算机可读存储介质-202310764627.3
  • 丁俊豪;谢单辉;陈东鹏 - 深圳市声扬科技有限公司
  • 2023-06-26 - 2023-09-29 - G10L17/02
  • 本申请公开了一种语谱图生成方法、装置、设备及计算机可读存储介质;具体的,对目标语音段的语音信号进行分帧处理后,非连续抽取多帧目标语音信号;对多帧目标语音信号对应的频域信号的幅度值,生成每帧目标语音信号对应的归一化幅度谱,并对归一化幅度谱进行对数运算,得到每帧目标音频信号对应的对数幅度谱,从而生成目标语音段的目标语谱图。由此可得,本方案可先对目标语音段分帧处理后的语音信号进行非连续抽帧,然后计算抽取的每帧语音信号的语谱图像素集,将多个语音信号的语谱图像素集按照时间顺序拼接成目标语音段的目标语谱图;以此,降低了语谱图的计算量,提升了语谱图生成的效率,保证了语谱图的质量。
  • 声纹识别方法、装置、电子设备及计算机可读存储介质-202311115669.0
  • 黎荣晋;陈东鹏;张伟彬;李亚桐 - 深圳市声扬科技有限公司
  • 2023-08-31 - 2023-09-29 - G10L17/02
  • 本申请公开了一种声纹识别方法、装置、电子设备及计算机可读存储介质,涉及人工智能技术领域,该方法包括:获取语音特征,通过目标时延神经网络的帧级别层对语音特征逐帧进行抽象压缩,得到T帧帧特征,T为大于或等于1的整数,通过目标时延神经网络的池化层对T帧帧特征进行汇聚得到段特征,池化层包括多头注意力单元,多头注意力单元用于为T帧帧特征确定权重,通过目标时延神经网络的段级别层对段特征进行抽象压缩,得到语音特征对应的声纹特征。本申请实施例中,在对语音特征进行识别之后,能够提升声纹识别的精度。
  • 一种基于人声特质的通信增强方法、系统及存储介质-202310364648.6
  • 吴建锋;严军荣;项灵剑 - 三维通信股份有限公司
  • 2023-04-07 - 2023-09-22 - G10L17/02
  • 本发明公开了一种基于人声特质的通信增强方法、系统及存储介质,方法包括:根据说话人语音数据构建人声特质识别模型;根据标准语音数据和人声特质识别模型构建预训练模型;在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型;语音数据通过通信增强模型处理后进行通信传输。本发明解决了现有基于通信增强算法的幅度相位不匹配、对说话人的通信增强效果差的问题。
  • 音频数据的清洗方法、装置、电子设备以及存储介质-202210237461.5
  • 黄润乾;陈东鹏 - 深圳市声扬科技有限公司
  • 2022-03-11 - 2023-09-19 - G10L17/02
  • 本申请公开了一种音频数据的清洗方法、装置、电子设备以及存储介质,涉及音频数据技术领域。该方法包括:获取待清洗音频数据,获取待清洗音频数据的音频信息,从多个音频处理算法中选择与音频信息对应的目标音频处理算法,以及基于目标音频处理算法对待清洗音频数据进行清洗处理,从待清洗音频数据中筛选出目标音频数据,从而可以根据音频数据的音频信息确定对音频数据进行处理的音频处理算法,实现自动对音频数据进行清洗,提高音频数据清洗的效率,并提高音频数据清洗的准确。
  • 一种Naive实时聚类方法、装置、电子设备和介质-202310926304.X
  • 王迪;梁家恩 - 云知声智能科技股份有限公司
  • 2023-07-26 - 2023-09-19 - G10L17/02
  • 本发明涉及一种Naive实时聚类方法、装置、电子设备和介质,该方法包括:获取音频,从音频中检出非静音部分的音频;采取滑动窗策略对非静音部分的音频提取得到多个声纹片段;对多个声纹片段进行Naive聚类,其中,对多个声纹片段进行Naive聚类包括:计算多个声纹片段中每个声纹片段与现有类别、暂存类的相似度得到每个声纹片段对应的标签,根据标签确定每个声纹片段的结果。本发明中当声纹片段被送入Naive聚类时,不仅要与现有类别计算相似度,还要与暂存类计算相似度,无论是已生成的类还是暂存类,均可以自适应地调整聚类中心,提升了Naive实时聚类的准确性。
  • 声纹分割方法、装置、设备及可读存储介质-202011072850.4
  • 谭聪慧 - 深圳前海微众银行股份有限公司
  • 2020-10-09 - 2023-09-19 - G10L17/02
  • 本申请公开了一种声纹分割方法、装置、设备及可读存储介质,所述声纹分割方法包括:获取待分割语音,并对待分割语音进行粗粒度帧划分,获得待分割语音对应的各第一切分粒度声音帧,进而对各第一切分粒度声音帧进行声纹识别,获得待分割语音对应的第一声纹识别结果,进而基于第一声纹识别结果,对各第一切分粒度声音帧的边界区域进行细粒度帧划分,获得各第二切分粒度声音帧,进而对各第二切分粒度声音帧进行声纹识别,获得待分割语音对应的第二声纹识别结果,进而基于第一声纹识别结果和第二声纹识别结果,对待分割语音进行声纹分割,获得目标声纹分割结果。本申请解决了声纹分割准确率低的技术问题。
  • 基于声纹增强和对抗的语音识别模型训练方法及装置-202311013449.7
  • 张明;杜文强 - 北京分音塔科技有限公司
  • 2023-08-14 - 2023-09-12 - G10L17/02
  • 本发明公开了一种基于声纹增强和对抗的语音识别模型训练方法及装置,包括:获取待训练的语音样本以及样本标签;对每个语音样本,添加说话人标识符;其中,所述说话人标识符用于标识该语音样本的作用类别;其中,所述作用类别至少包括正向增强类别、负向减弱类别以及不处理类别;基于所述说话人标识符、所述语音样本以及所述样本标签,对待训练的神经网络模型进行迭代训练,得到训练完成的语音识别模型;可见,本发明能够实现一个语音识别模型来增强或弱化特定说话人的语音识别性能。
  • 一种基于多尺度通道分离卷积特征提取的说话人聚类方法-202210588389.0
  • 李海滨;张晓龙;李雅倩;肖存军 - 燕山大学
  • 2022-05-26 - 2023-09-12 - G10L17/02
  • 本发明公开了一种基于多尺度通道分离卷积特征提取的说话人聚类方法,属于声纹识别技术领域,包括以下步骤:将VoxCeleb和AMI数据集切分为训练集、开发集和测试集;对VoxCeleb和AMI数据进行预处理;在ECAPA‑TDNN网络框架的基础上搭建多尺度通道分离卷积模块;选用AAM‑softmax损失函数对模型进行多次训练得到最优模型;利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;使用标准的分割聚类错误率DER对聚类结果打分。本发明能够提取到具有判别性的声纹特征,并在谱聚类算法上取得良好的效果,以相对较小的参数量为代价取得了更低的分割聚类错误率。
  • 声纹识别方法、声纹识别装置、电子设备及存储介质-202310727620.4
  • 贺亚运;王健宗;彭俊清 - 平安科技(深圳)有限公司
  • 2023-06-16 - 2023-09-05 - G10L17/02
  • 本申请提供了一种声纹识别方法、声纹识别装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:对原始音频数据进行音频过滤,得到多个初步音频片段;对初步音频片段进行特征提取,得到初步声纹特征;基于参考声纹特征和预设阈值构建音频特征空间;基于音频特征空间对初步声纹特征和参考声纹特征进行距离检测,得到特征距离数据;基于特征距离数据和音频时间阈值对初步音频片段进行拼接,得到目标音频数据;若目标音频数据的音频时长大于或者等于音频时间阈值,则基于声纹特征提取模型对目标音频数据进行特征提取,得到目标声纹特征;基于目标声纹特征和参考声纹特征进行声纹识别,得到声纹识别数据。本申请能够提高声纹识别的准确性。
  • 声纹特征提取方法、说话人识别方法、模型训练方法及装置-202310571244.4
  • 陈亚峰;郑斯奇;王绘;程路遥 - 阿里巴巴(中国)有限公司
  • 2023-05-18 - 2023-09-05 - G10L17/02
  • 本申请实施例公开了一种声纹特征提取方法、说话人识别方法、模型训练方法及装置。主要技术方案包括:获取包含语音的音频段;提取音频段的频谱特征;将音频段的频谱特征输入声纹提取模型,获取声纹提取模型输出的声纹特征;其中,声纹提取模型包括卷积神经网络层和池化全连接层;卷积神经网络层包括一个以上串连的基础模块,基础模块对输入该基础模块的特征进行不同通道维度的特征提取和融合,得到该基础模块输出的特征;利用最后一个基础模块输出的特征得到卷积神经网络层输出的特征;池化全连接层对卷积神经网络层输出的特征进行池化和全连接处理,得到声纹特征。通过本申请能够提升提取的声纹特征的准确性,提高声纹提取模型的泛化性能。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top