[发明专利]信号提取系统、信号提取学习方法以及信号提取学习程序在审

专利信息
申请号: 201980096829.7 申请日: 2019-05-28
公开(公告)号: CN113892136A 公开(公告)日: 2022-01-04
发明(设计)人: 越仲孝文;山本仁;鲤田薰;铃木隆之 申请(专利权)人: 日本电气株式会社
主分类号: G10L17/18 分类号: G10L17/18;G10L17/00;G10L17/04;G10L17/10;G10L25/30
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 孙志湧;李兰
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种神经网络输入单元(81),其输入其中组合了第一网络和第二网络的神经网络,第一网络具有用于输入属于预定类别的锚信号和包括属于该类别的目标信号的混合信号的层以及用于将指示目标信号存在于混合信号中的时频域的重构掩码来作为估计结果进行输出的层,并且第二网络具有用于输入通过将混合信号应用于重构掩码而提取的目标信号的层和用于输出通过将输入的目标信号分类为预定的类别而获得的结果的层。重构掩码估计单元(82)将锚信号和混合信号应用于第一网络以估计锚信号所属类别的重构掩码。信号分类单元(83)将混合信号应用于估计的重构掩码以提取目标信号,并且将提取的目标信号应用于第二网络以将目标信号分类为所述类别。
搜索关键词: 信号 提取 系统 学习方法 以及 学习 程序
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201980096829.7/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于深度学习的语音识别方法-202310914137.7
  • 陈志丰;张灵芝 - 陈志丰
  • 2023-07-25 - 2023-10-24 - G10L17/18
  • 本发明公开了一种基于深度学习的语音识别方法,该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别,本发明属于语音识别技术领域,具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,采用基于集成学习的口语识别架构进行口语理解,提高了语音识别的可用性和精确性,采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
  • 一种音频提取方法、装置及电子设备-202310031699.7
  • 陈亚楠;张世磊;高莹莹 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2023-01-10 - 2023-10-20 - G10L17/18
  • 本发明提供一种音频提取方法、装置及电子设备,涉及通信技术领域。该方法包括:获取待处理的混合信号以及待提取目标人声的声纹特征向量;将所述混合信号和所述声纹特征向量输入到复数长短期记忆LSTM网络模型,得到第一输出数据;根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据;利用所述第二输出数据获取所述目标人声的音频数据。本发明的方案能够解决解决目前目标说话人语音增强技术,存在提取目标人声的音频信息的质量较差的问题。
  • 一种基于DV-Softmax损失函数的声纹识别方法-202310780293.9
  • 曹毅;叶凡;李杰;李平;周辉 - 江南大学
  • 2023-06-29 - 2023-10-13 - G10L17/18
  • 本申请提供的一种基于DV‑Softmax损失函数的声纹识别方法,其构建了DV‑Softmax损失函数,采用重加权函数对不同类别的样本产生不同的裕度,基于权重指示函数使得对声纹识别模型的训练更集中于硬样本,更好的强调了不同样本之间和不同样本类别之间的关系,由于简单样本对模型训练仅起微弱的正作用,硬样本训练困难但对训练起较大的正作用,模糊样本所包含的噪音对训练起反作用,因此,通过加强硬样本的权重,降低简单样本和模糊样本的权重可有效提升训练效果,进而提高声纹识别模型的泛化能力。
  • 语音验证方法、装置、计算机设备及存储介质-201910068827.9
  • 黎立桂 - 平安科技(深圳)有限公司
  • 2019-01-24 - 2023-10-13 - G10L17/18
  • 本发明实施例公开了一种语音验证方法、装置、计算机设备及存储介质,包括下述步骤:获取验证语音信息,其中,所述验证语音信息为验证用户在朗读验证信息时,目标终端采集到的语音内容;根据所述验证语音信息判断所述语音内容是否为预设的声音类别,其中,所述预设的声音类别为表征语音内容为人类声音的声音分类;当判断所述语音内容不属于所述预设的声音类别时,确定语音验证失败。通过对验证语音是否为真实人声进行校验,可以有效排除机器、AI、爬虫等恶意用户,防止此类恶意用户对网站、平台的攻击,保证验证用户有效性和真实性,提升语音验证的安全性。
  • 一种婴儿哭声识别方法、系统及装置-202311000988.7
  • 刘诚;曹海涛;陈海山 - 广州番禺职业技术学院
  • 2023-08-10 - 2023-09-29 - G10L17/18
  • 本发明公开了一种婴儿哭声识别方法、系统及装置,属于数字信号处理领域,包括基于表示已经被公开的用于表征婴儿哭声含义的数据集合,通过设置环境噪声数据,生成数据集;通过对数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型;基于神经网络模型,对采集的婴儿哭声进行识别,获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义;本发明通过使用小波散射网络来更高效地提取声音信号的特征,提高了哭声识别的准确率,并且在保证效果的同时,使得用于识别的神经网络模型的参数量大大降低,进而节约硬件资源,节省了软硬件开发成本,降低了产品功耗。
  • 基于轻量化卷积神经网络的声纹识别方法和装置-202110886681.6
  • 许静;吴彦峰;赵俊安;过辰楷;朱静雯 - 南开大学
  • 2021-08-03 - 2023-09-22 - G10L17/18
  • 一种基于轻量化卷积神经网络的声纹识别方法和装置,解决了现有技术中声纹识别技术精度低且网络参数量和计算量过大的问题。声纹识别方法包括:基于声学特征向量,顺次执行多个特征提取子例程,分别得到多个第四声纹特征向量;基于部分第四声纹特征向量确定第五声纹特征向量;采用低秩矩阵分解技术对第五声纹特征向量进行全连接,得到第六声纹特征向量;根据第六声纹特征向量进行声纹识别。其中,特征提取子例程包括:对输入特征向量进行多个不同空洞率的深度可分离卷积操作,得到多个第一声纹特征向量,确定多个第一声纹特征向量各自的权重向量,基于权重向量对多个第一声纹特征向量进行加权融合,得到第二声纹特征向量。
  • 一种轻量化声纹识别方法及系统-202310434146.6
  • 李郡;王啸;游恒;尚德龙;周玉梅 - 中科南京智能技术研究院
  • 2023-04-21 - 2023-08-22 - G10L17/18
  • 本发明公开了一种轻量化声纹识别方法及系统,属于声纹识别技术领域,方法包括:根据预获取的训练数据集中音频的质量,构建批次数据;根据所述批次数据和基于检测误差权衡曲线下面积的损失函数,利用预获取的已固定参数的高性能教师模型,对预获取的待更新参数的轻量化学生模型进行知识蒸馏,获取高性能轻量化学生模型;利用所述高性能轻量化学生模型,获取注册说话人嵌入层和实时说话人嵌入层;计算所述实时说话人嵌入层和注册说话人嵌入层的相似度,并根据所述相似度获取声纹识别结果。该方法能够获取高性能轻量化学生模型,提高对平凡发音等易受环境影响的短时发音的识别效果。
  • 一种线上面审处理方法、装置、存储介质及设备-202310313333.9
  • 梁俊杰 - 平安银行股份有限公司
  • 2023-03-27 - 2023-06-30 - G10L17/18
  • 本申请实施例提供一种线上面审处理方法、装置、存储介质及设备,该方法中,获取AI面审过程中虚拟客服问问题时录制的第一音频和客户回答问题时录制的第二音频,通过音频分离处理和声纹提取处理,分别得到第一声纹特征和第二声纹特征,之后,通过将该第一声纹特征分别与该虚拟客服的声纹特征和该客户的声纹特征进行对比,以及将该第二声纹特征与该客户的声纹特征进行对比,判断是否存在旁人。如此,避免旁人在不露面时指点客户回答的情况,从而确保AI面审的合规性。
  • 通过神经网络机器学习的车辆周围音频分类-201710976026.3
  • 伊桑·格罗斯 - 福特全球技术公司
  • 2017-10-19 - 2023-06-20 - G10L17/18
  • 本公开描述了通过神经网络机器学习检测和分类车辆周围的声音的方法和设备。方法包含音频识别系统,该音频识别系统可以确定声音的起源是在车辆的里面或外面并且把声音分类为比如成人、儿童或动物声音这样的不同类别。音频识别系统可以与在车辆内部和周围的多个传感器通信以获取车辆的状况的信息。基于声音和车辆的状况的信息,音频识别系统可以确定乘员或车辆是否处于风险中并且发送警告消息或发出警报信号。
  • 域适应的声纹特征识别方法及系统-202211431413.6
  • 张星东;赵胜;丁卓 - 南京龙垣信息科技有限公司
  • 2022-11-15 - 2023-06-06 - G10L17/18
  • 本方案涉及一种域适应的声纹特征识别方法及系统。所述方法包括:中心服务器接收声纹查询请求,并获取待识别音频;所述中心服务器通过域适应循环对抗神经网络对所述待识别音频进行域分类,得到类别序号并发送给分布式存储设备;所述分布式存储设备在声纹数据底库中查找与所述类别序号相同的已注册名单,并根据所述已注册名单计算出各个打分矩阵;所述分布式存储设备将各个所述打分矩阵发送至所述中心服务器,所述中心服务器根据各个所述打分矩阵得到声纹识别结果。通过使用域适应循环对抗神经网络进行域分类,从而根据类别序号计算打分矩阵并得到声纹识别结果,当数据属于不同域时,不会出现域不匹配的现象,提高了声纹识别的识别性能。
  • 一种基于RNN聚合方式的声纹识别方法与系统-202010326716.6
  • 陈华官;张志齐 - 上海依图网络科技有限公司
  • 2020-04-23 - 2023-05-02 - G10L17/18
  • 本发明公开了一种基于RNN聚合方式的声纹识别方法与系统,声纹识别方法包括:获取原始音频;抽取原始音频中的原始频谱特征;从原始频谱特征中获得特征层;将特征层输入RNN中聚合,输出RNN中的隐藏状态特征;将隐藏状态特征进行说话人分类;声纹识别系统包括:音频采集模块,用于获取原始音频;频谱特征获取模块,用于抽取所述原始音频中的原始频谱特征数据;特征层获取模块,用于根据所述原始频谱特征数据进行特征层的抽取;聚合模块,用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征;说话人分类模块,用于对所述隐藏状态特征进行说话人分类。
  • 一种基于深度神经网络的声纹识别方法-202211622180.8
  • 邢建川;曾凤;付鱼;陈洋;周春文;莫国坤 - 电子科技大学
  • 2022-12-16 - 2023-04-25 - G10L17/18
  • 本发明公开了一种基于深度神经网络的声纹识别方法,属于语音处理技术领域。本发明包括:训练声纹特征提取网络和声纹识别打分网络,基于训练好的声纹特征提取网络预测注册语音的声纹特征向量,基于注册声纹特征向量构建声纹特征数据库;获取待识别的声学特征,基于声纹识别打分网络获取其与声纹特征数据库的打分结果以确定识别结果。本发明所提取的声纹特征向量更为细腻,使得语音特征更好地被保留。提取的Fbank特征减少了语音预处理过程中的计算量,加快了特征构建速度。通过给网络设置更大的通道数,增强了神经网络模型的拟合能力。打分网络使用训练PLDA算法得到的参数进行网络参数的初始化,加快了网络收敛速度,并获得了更好的效果。
  • 反洗钱风险检测方法、装置、计算机设备及可读存储介质-202211614190.7
  • 王小红 - 平安银行股份有限公司
  • 2022-12-15 - 2023-04-25 - G10L17/18
  • 本发明涉及金融技术领域,具体涉及一种反洗钱风险检测方法、装置、计算机设备及可读存储介质,该方法包括:获取在电话回访中目标持卡人的第一语音信息;基于神经网络模型,提取所述第一语音信息中的第一声纹特征;将预设时间内的所述第一声纹特征和预先存储的开户人的第一留底声纹特征进行比对;若比对结果不一致,则判定所述目标持卡者存在洗钱操作风险。本发明通过在电话回访中获取目标持卡人的第一语音信息,并对第一语音信息对应的第一声纹特征进行分析比对,判断出目标持卡人和开户人是否为同一个人,从而对目标持卡者是否存在洗钱操作风险作出预测,提高了反洗钱风险检测的准确性,适用性更高。
  • 一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统-202010226730.9
  • 张晶 - 广东外语外贸大学
  • 2020-03-27 - 2023-04-18 - G10L17/18
  • 本发明公开一种基于彩色图像RGB映射特征的CNN声纹识别方法及系统,该方法的实现过程为:S1:输入语音数据;S2:提取特征,从语音数据中提取特征,所提取特征包括:静态、一阶差分,二阶差分特征,用以充当图像RGB中红色、绿色和蓝色的角色;S3:将提出的特征输入到构建的CNN模型,得出识别结果。本发明与现有技术相比,相比较于传统GMM模型识别率具有显著的提高;语音时长对于CNN识别率的影响很小,在噪声环境下,CNN识别率依然维持在很高的水平,说明CNN对于噪声具有很好的鲁棒性。
  • 基于双向注意力残差网络的语音欺诈检测方法-202211186472.1
  • 陈晨;代博涵;白博超;杨海陆;王莉莉;陈德运 - 哈尔滨理工大学
  • 2022-09-27 - 2023-04-04 - G10L17/18
  • 本发明提出了一种基于双向注意力残差网络的语音欺诈检测方法,能够有效提升欺诈语音检测系统的识别性能,防止欺诈语音通过自动说话人验证系统(ASV)。在训练过程中,本发明首先对语音进行预处理,并提取常数Q变换(CQT)特征矩阵,将其作为残差网络(ResNet)的输入,利用ResNet提取浅层特征,然后将此特征输入双向注意力网络,以区分特征中不同维度的重要程度,从而得到区分性更强的特征表示。在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分,根据打分结果对真实语音与欺诈语音进行分类。实验结果表明,本发明方法能够明显提升欺诈检测系统的性能,保护ASV系统免受不法用户的侵害。本发明可应用在语音处理和生物识别领域。
  • 一种听歌识人方法、终端设备及存储介质-202111122982.8
  • 徐敏;肖龙源;李稀敏;叶志坚 - 厦门快商通科技股份有限公司
  • 2021-09-24 - 2023-03-28 - G10L17/18
  • 本发明涉及一种听歌识人方法、终端设备及存储介质,该方法中包括:采集单一说话人的音频构建第一训练集;构建基于卷积神经网络和残差神经网络的自监督学习模型;基于第一训练集中的音频的声学特征,对模型进行n次回归训练;基于第一训练集中的各音频,对模型进行第n+1次回归训练;基于第n+1次回归训练结果构建鉴别任务,将鉴别训练后的模型作为听歌识人模型;采集标注有歌手名音频数据对听歌识人模型进行分类训练,得到最终听歌识人模型;通过最终听歌识人模型对待识别歌曲的歌手进行识别。本发明无需支付高额版权费收集大量歌手歌曲,也无需人工对歌曲进行截取,只需要适量正常的带说话人标注的语音及歌手歌曲片段即可实现对听歌识人模型的训练。
  • 一种语音对话方法及相关装置-202210754139.X
  • 余敦辉;张阳;张万山;张蕗怡;张与牵;陈叶子 - 湖北大学
  • 2022-06-27 - 2022-12-20 - G10L17/18
  • 本发明实施例公开了一种语音对话方法及相关装置,用于提高人机对话中的可持续性和主动性。本发明实施例方法包括:接收用户的输入信息,并根据所述输入信息得到对应的文本信息;识别所述文本信息中的话题实体;基于所述话题实体对所述用户进行情感检测以得到情感检测结果,并基于所述情感检测结果在知识图谱中更新所述用户的用户实体;在所述用户与所述对话系统进行N轮对话后,对所述N轮对话进行僵局检测,得到僵局检测结果;若所述僵局检测结果指示对话陷入僵局,则根据所述用户的用户实体向所述用户推送新话题进行对话。
  • 一种用于智能门禁的声纹识别方法-202211067446.7
  • 赵思瑞;张禄;程元元;谷玉章;刘伟;康绪芳 - 山东深博建筑工程有限公司
  • 2022-09-01 - 2022-11-29 - G10L17/18
  • 本发明公开了一种用于智能门禁的声纹识别方法,包括以下处理模块:特征提取模块、声纹识别模块和数字确认模块;通过通过特征提取模块,将公司内部登记在册的员工声音波形信号和当前输入的说话人声音波形信号,转换成更易进行声纹区分的梅尔倒谱系数特征;进入声纹识别模块,利用所设计的人工神经网络模型对输入说话人的声纹特征与登记在册的声纹特征进行相似度比较,确认是否是本公司的员工,且输入说话人的声纹特征与登记在册的声纹特征匹配,则进入数字验证模块。采用单个麦克风声学传感器作为门禁系统的输入信号源,相较于摄像头、触摸屏等输入设备而言,产品部署时的体积更小,成本更低。
  • 声纹识别方法、装置和计算机可读存储介质-202110563106.2
  • 徐聪聪;霍伟明;张新健;徐浩;吴施烙 - 佛山市顺德区美的电子科技有限公司;广东美的制冷设备有限公司
  • 2021-05-21 - 2022-11-22 - G10L17/18
  • 本申请公开了一种声纹识别方法、装置和计算机可读存储介质,声纹识别方法包括:接收云端服务器发送的声纹模型,将声纹模型存储至本地,声纹模型是由云端服务器根据终端设备发送的历史语音数据进行训练得到的;当终端设备处于在线状态时,对本地存储的声纹模型进行更新,以通过存储的所述声纹模型对接收到的语音数据进行声纹识别。通过将声纹模型部署至本地,实现本地化,当处于在线状态时,对本地存储的声纹模型进行更新,如此,避免了在离线状态下,由于计算资源的限制,导致离线声纹识别性能不佳的问题,达到了提高离线声纹识别性能的效果。
  • 基于改进时延神经网络的说话人识别方法-202210353301.7
  • 王燕清;王子豪;刘雨佳 - 南京晓庄学院
  • 2022-04-06 - 2022-11-04 - G10L17/18
  • 本发明公开了基于改进时延神经网络的说话人识别方法,通过TDNN网络训练音频的特征获取部分说话人的特征表达,然后由加入的量化和计数算子(Quantization and Counting Operators,QCO)同时处理,QCO能够充分利用音频的低层纹理特征,得到特征的细节信息。实验结果表明,改进的时延神经网络在相对较少的数据量中即可由网络训练获取更多信息的特征表达,在小数量训练集的网络中有明显优势。当数据量进一步增多时效果更为明显,训练加入了纹理统计方法的结构提取的细节特征使说话人识别表现更好。
  • 一种基于双注意力机制动态卷积的说话人识别方法-202210836146.4
  • 罗元;朱奎林;王文豪;林子尧 - 重庆邮电大学
  • 2022-07-15 - 2022-11-01 - G10L17/18
  • 本发明请求保护一种基于通道‑空间注意力的动态卷积说话人识别方法,该方法包括步骤:S1,将声音信号切为多个片段,提取声音信号的声学特征;S2,为解决静态卷积以及一般动态卷积方法中注意力权重矩阵信息量不足的问题,使用通道注意力以及空间注意力融合的双注意力方法提取注意力权重矩阵;S3,将通道注意力与空间注意力权重矩阵融合作为动态卷积的注意力权重矩阵并与多个静态卷积核按权重相加,得到最终的动态卷积核。S4,将输入语音数据与该动态卷积核卷积得到说话人语音帧级特征。
  • 一种说话者确认方法及系统-202110496856.2
  • 陈增照;郑秋雨;何秀玲;戴志诚;张婧;孟秉恒;李佳文;吴潇楠;朱胜虎 - 华中师范大学
  • 2021-05-07 - 2022-10-28 - G10L17/18
  • 本发明提供一种说话者确认方法及系统,包括:对说话者的音频信息进行预处理,将所述音频信息转换为预设格式的数据;将说话者音频信息对应的预设格式的数据输入到训练好的基于空间注意力机制的深度嵌套残差神经网络,以得到帧级别的说话者向量;基于所述帧级别的说话者向量生成话语级别的说话者向量,并计算所述话语级别的说话者向量和目标说话者向量的余弦相似度,以判断所述说话者是否为目标说话者;所述目标说话者向量是预先获取的。本发明提出了一种基于空间注意力机制的深度嵌套残差神经网络,通过深度神经网络更准确地提取说话者声纹特征。
  • 基于深度神经网络的说话人验证方法、终端及存储介质-202210621923.3
  • 梁兴伟;庄欣楠;杨波 - 康佳集团股份有限公司
  • 2022-06-02 - 2022-10-21 - G10L17/18
  • 本发明公开了一种基于深度神经网络的说话人验证方法、终端及存储介质,方法包括:获取预设数据集中多个说话人的语音数据;通过预处理将多个语音数据转换为二维数据组,并根据预设比例将二维数据组划分为训练集和验证集;根据残差神经网络和长短时记忆网络构建深度神经网络,通过训练集及验证集对深度神经网络进行训练验证,得到训练后的深度神经网络;通过训练后的深度神经网络对输入的若干条待测说话人的音频信息进行预测,并输出待测说话人的验证结果。本发明充分利用音频数据的频域特征和时域特征信息,在网络模型更新参数时注重于不易被区分的音频数据,使得训练得到的模型能够更加准确完成说话人验证任务,提高说话人验证系统性能。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top