[发明专利]一种深度双向门递归神经网络的骨导语音增强方法有效

申请号：	201711150864.1	申请日：	2017-11-18
公开（公告）号：	CN107886967B	公开（公告）日：	2018-11-13
发明（设计）人：	张雄伟;郑昌艳;曹铁勇;孙蒙;李莉;贾冲;邹霞;邢益搏	申请（专利权）人：	中国人民解放军陆军工程大学
主分类号：	G10L25/30	分类号：	G10L25/30;G10L21/02
代理公司：	南京理工大学专利中心 32203	代理人：	唐代盛
地址：	210007 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种深度双向门递归神经网络的骨导语音增强方法，利用双向门递归神经网络模型训练骨导到气导语音特征，并利用训练好的双向门递归神经网络模型增强骨导语音。本发明利用深度学习强大的非线性映射性能实现骨导语音特征到气导语音特征的转换，使用的门递归神经网络是长短时记忆递归神经网络的一种变形，可有效对语音的长时依赖进行建模，并且参数更少训练更快，同时本发明从两个方向上对语音特征的上下文进行建模，更能有效恢复骨导语音中缺失信息，并能够有效提升骨导语音的清晰度与可懂度，改善骨导语音质量，达到良好的增强效果。
搜索关键词：	一种深度双向递归神经网络导语增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种深度双向门递归神经网络的骨导语音增强方法，其特征在于如下步骤：步骤一：提取气导AC和骨导BC语音特征，并对提取的语音特征进行数据预处理以符合神经网络的输入需求，然后进入步骤二进行训练；步骤二：训练时，以骨导语音特征作为训练输入，以气导语音特征作为训练目标，采用时间反向传播算法训练深度双向门递归神经网络模型，并存储训练好的深度双向门递归神经网络模型；步骤三：提取待增强的骨导语音特征，并根据步骤一所获得的语音特征数据统计特征进行数据归一化，然后进入步骤四进行骨导语音增强；步骤四：增强时，利用步骤二训练好的双向门递归神经网络对步骤三提取的骨导语音特征进行增强，再对神经网络的输出进行反归一化和特征逆变换，最终得到增强后的骨导时域语音；所述步骤一的语音特征提取过程：①语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC语音数据对，AC语音可表示为A，BC语音可表示为B，利用短时傅里叶变换将AC与BC语音时域信号y(A)、y(B)分别变换到时频域，具体步骤为：(1)对语音时域信号y(A)、y(B)分别进行分帧加窗处理，窗函数为汉明窗，帧长为N，N取为2的整数次幂，帧间移动长度为H；(2)对分帧后的语音帧进行K点离散傅里叶变换，获得语音的时频谱YA(k,t)、YB(k,t)，具体计算公式如下：这里，k＝0,1,···,K‑1表示离散频率点，K表示离散傅里叶变换时的频率点数，K＝N，t＝0,1,···,T‑1表示帧序号，T为分帧的总帧数，h(n)为汉明窗函数；②对频谱Y(k,t)取绝对值，计算得到幅度谱MA、MB，计算公式如下：M(k,t)＝|Y(k,t)|③对幅度谱M(k,t)取以e为底的对数，得到对数幅度谱LA、LB，计算公式如下：L(k,t)＝lnM(k,t)所述步骤四中利用训练好的神经网络模型实现BC语音特征增强，将归一化后的数据作为输入特征送入网络中，计算得到网络输出，即增强后的特征所述数据反归一化以及逆变换过程，最终得到增强后的骨导时域语音的步骤如下：①根据训练阶段AC语音对数幅度谱的均值和方差将双向门递归神经网络得到的输出进行反归一化，得到对数幅度谱计算公式如下：②将对数幅度谱进行指数运算，得到幅度谱计算公式如下：③利用幅度谱以及相位信息计算得到时频谱计算公式如下：④利用傅里叶逆变换以及语音分帧后去重叠加公式，将频谱转化到时域，最终得到增强后的时域语音y(B_E)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学，未经中国人民解放军陆军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711150864.1/，转载请声明来源钻瓜专利网。

同类专利

音频信号的掩蔽阈值估计方法、装置及存储介质-201810949209.0
发明人：李超;朱唯鑫 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-08-20 - 公布日： 2019-09-10 - 主分类号： G10L25/30
摘要：本发明实施例提出一种音频信号的掩蔽阈值估计方法、装置及计算机可读存储介质。其中音频信号的掩蔽阈值估计方法包括：将待处理音频信号输入多任务的神经网络模型，所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的；从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值；利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。本发明实施例的神经网络模型除了输出掩蔽阈值之外，又采用了音素类别作为神经网络模型的另一个输出，从而使用了更多的信息，有利于让网络学习的更好，从而获得更好的性能。

一种用于语音变形检测的深度残差网络结构-201910521871.0
发明人：王泳;张梦鸽;赵雅珺 -专利权人：广东技术师范大学
申请日： 2019-06-17 - 公布日： 2019-09-06 - 主分类号： G10L25/30
摘要：本发明涉及一种用于语音变形检测的深度残差网络结构，其特征在于共50层，并在网络结构的卷积神经网络中加入短链接；该短链接即为在下一层的输入额外的加入上一层的特征映射，短链接的特征映射不增加额外的参数；所述网络结构采用四个最大池化，在第一层卷积层之后有四种针对不同尺寸特征图的结构块，网络结构卷积过程中，在每个结构块后进行一次降采样，降采样只在时频图的时间维度进行；而卷积神经网络在进行语音变形的频谱特征提取时，卷积核只在频谱特征维度进行卷积；所述网络结构最后加有全局均值池化层和全连接层后再经sigmoid非线性函数进行结果评价。本发明建立的检测变形语音模型，能更好的分类出语音是原始语音还是伪装语音。

一种基于卷积神经网络的汽车鸣笛识别方法-201910378725.7
发明人：陈建峰;白吉生;项彬 -专利权人：西北工业大学;西安联丰迅声信息科技有限责任公司
申请日： 2019-05-08 - 公布日： 2019-08-16 - 主分类号： G10L25/30
摘要：本发明提供了一种基于卷积神经网络的汽车鸣笛识别方法，通过空气声呐传感器接收空气中的声音信号，采集大量汽车鸣笛声音和环境背景噪声，通过短时傅里叶变换产生声音信号的声谱图，将变换后的声谱图矩阵分为训练集和验证集输入卷积神经网络进行训练，结合卷积神经网络参数调整，使得基于训练集和验证集的效果达到最佳。最终将待识别声音输入卷积神经网络给出判别结果。本发明将人工智能技术应用在了智能交通领域，能够准确识别马路上的鸣笛声音。

基于神经网络的全语通的实现方法及相关产品-201910173053.6
发明人：廖德南 -专利权人：永德利硅橡胶科技（深圳）有限公司
申请日： 2019-03-07 - 公布日： 2019-07-23 - 主分类号： G10L25/30
摘要：本申请提供了一种基于神经网络的全语通的实现方法，该方法包括：终端接收用户的第一语言的第一语音，确定终端通话所需的第二语言；终端将第一语言以及第二语言发送至网络侧，接收网络侧下发的神经网络模型的第一参数，终端将第一参数加载至神经网络模型；终端将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音，将第二语音通过网络发送至通话端。本申请提供的技术方案具有用户体验度高的优点。

基于FPGA加速的PCNN算法的噪声分类方法-201910166349.5
发明人：高振斌;臧鑫哲;李梦圆 -专利权人：河北工业大学
申请日： 2019-03-06 - 公布日： 2019-06-28 - 主分类号： G10L25/30
摘要：本发明为基于FPGA加速的PCNN算法的噪声分类方法，该方法包括下述步骤：步骤1，用录音设备采集噪声样本，并剪辑成音频文件；步骤2，音频文件进行时‑频转换；步骤3，特征提取：将噪声频谱图转换为灰度图，将灰度值作为PCNN模型的输入，通过FPGA实现PCNN算法迭代过程的加速，并输出时间序列作为不同类别噪声的特征提取；步骤4，将噪声样本中每一种噪声经步骤3处理迭代50‑200次输出时间序列后分为训练集和测试集；步骤5，将训练集每次迭代的时间序列求平均作为参考模板，计算测试集的时间序列与参考模板的时间序列之间的欧式距离，当欧氏距离小于噪声类别阈值时判别为同一种噪声，并输出识别结果。该方法缩短了特征提取时间，节约了时间成本。

基于卷积神经网络的环境噪声识别分类方法-201910166344.2
发明人：高振斌;李梦圆;臧鑫哲 -专利权人：河北工业大学
申请日： 2019-03-06 - 公布日： 2019-05-17 - 主分类号： G10L25/30
摘要：本发明为基于卷积神经网络的环境噪声识别分类方法，该方法包括下述步骤：步骤1，提取自然环境噪声，将其剪辑为时长300ms‑30s，频率转变为44.1kHz的噪声片段；步骤2，对噪声片段进行短时傅立叶变换，将一维时域信号转换为二维频域信号，得到声谱图；步骤3，提取信号的梅尔频谱倒谱系数(MFCC)；步骤4，将所有噪声片段的80％作为训练集，其余的20％作为测试集；步骤5，用卷积神经网络模型进行噪声分类；步骤6，用训练集训练分类模型，用测试集验证该模型的准确性，完成基于卷积神经网络的环境噪声识别分类。本发明将声音片段输入，声音特征信息被提取，输出的是分类结果，可以实现自动提取声音特征信息。

电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质-201810403208.6
发明人：刘奡智;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-04-28 - 公布日： 2019-05-10 - 主分类号： G10L25/30
摘要：本发明公开了一种电子装置、基于深度学习的乐曲演奏风格识别方法及存储介质，所述方法通过获取待演奏的乐曲对应的乐谱；根据预先训练完成的音乐力度标注模型对获取的乐谱进行音乐力度标注，以标注出所述乐谱中的音乐力度；根据标注的音乐力度，确定该乐曲的演奏风格。能够提高演奏初学者的学习效率及效果，且该方法简单灵活实用性强。

语音信号噪声功率谱密度估计方法和装置-201811594883.8
发明人：赵峰;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-12-25 - 公布日： 2019-04-12 - 主分类号： G10L25/30
摘要：本发明涉及语音处理技术领域，具体提供了一种语音信号噪声功率谱密度估计方法和装置，其中，方法包括：提取带噪语音信号中的时间上下文窗口特征输入到预先训练好的语音存在概率估计器中，语音存在概率估计器输出当前时间帧对应的估计语音存在概率；根据贝叶斯规则，修正估计语音存在概率，确定语音存在概率；根据语音存在概率，采用递归平滑公式，确定相应的时间帧对应的噪声功率谱密度。通过本发明的技术方案，在较小计算资源的情况下，提升了噪声功率谱密度的估计准确性，有利于有效地消除噪声信号，最小化语音处理过程中的失真，提升语音增强性能。

一种重叠音检测方法及相关装置-201910104603.9
发明人：刘建敏;胡新辉;徐欣康 -专利权人：浙江核新同花顺网络信息股份有限公司
申请日： 2019-02-01 - 公布日： 2019-04-09 - 主分类号： G10L25/30
摘要：本申请公开了一种重叠音检测方法，包括：采用重叠音检测模型对多个语音序列进行检测，得到检测结果；其中，重叠音检测模型的训练过程包括：对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；根据多个非重叠音序列对多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；根据重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型。通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。本申请还公开了一种重叠音检测系统、重叠音检测设备以及计算机可读存储介质，具有以上有益效果。

一种音频的标签化处理方法、装置和计算设备-201811400838.4
发明人：罗玄;张好;黄君实;陈强 -专利权人：北京奇虎科技有限公司
申请日： 2018-11-22 - 公布日： 2019-03-19 - 主分类号： G10L25/30
摘要：本发明提供了一种音频的标签化处理方法和装置。该方法包括：获取原始音频信号；对所述原始音频信号进行离散化，得到目标音频；通过时序卷积神经网络CNN提取所述目标音频的特征，得到所述目标音频的特征向量；对所述特征向量进行聚类分析，得到所述特征向量对应的原始音频的不同分类；针对所述特征向量对应的原始音频的不同分类，提取同一类中的原始音频对应的标题中的关键字，并根据预定规则从所述关键字中选取一个或多个关键字作为该类别的音频标签。本发明提供的方案实现了高效、准确的音频分类，并实现了高准确度和全面性的音频标签化，从而能够提高音频的搜索命中率和推荐准确率。

基于神经网络的手机定位方法及定位装置-201510895915.8
发明人：章雒霏;张铭;李晨 -专利权人：南京师范大学
申请日： 2015-12-08 - 公布日： 2019-03-08 - 主分类号： G10L25/30
摘要：本发明公开了一种基于神经网络的手机定位方法及定位装置，该方法先对神经网络进行训练，获取到训练完毕的神经网络的权值和神经元的个数，再对主麦克风和次麦克风接收到的带噪信号依次进行模数转换和特征提取的处理，并确定主麦克风中的语音帧，利用已经训练好的神经网络在语音帧对手机进行空间定位处理。本发明提出的基于神经网络的手机定位方法只使用两个麦克风就可以在3维空间中定位手机的空间位置，克服了现有的方法使用两个麦克风只能够在2维空间中进行定位的缺陷，能够对手机进行3维定位，为后续语音消噪处理提供良好的基础。

一种深度双向门递归神经网络的骨导语音增强方法-201711150864.1
发明人：张雄伟;郑昌艳;曹铁勇;孙蒙;李莉;贾冲;邹霞;邢益搏 -专利权人：中国人民解放军陆军工程大学
申请日： 2017-11-18 - 公布日： 2018-11-13 - 主分类号： G10L25/30
摘要：本发明提出了一种深度双向门递归神经网络的骨导语音增强方法，利用双向门递归神经网络模型训练骨导到气导语音特征，并利用训练好的双向门递归神经网络模型增强骨导语音。本发明利用深度学习强大的非线性映射性能实现骨导语音特征到气导语音特征的转换，使用的门递归神经网络是长短时记忆递归神经网络的一种变形，可有效对语音的长时依赖进行建模，并且参数更少训练更快，同时本发明从两个方向上对语音特征的上下文进行建模，更能有效恢复骨导语音中缺失信息，并能够有效提升骨导语音的清晰度与可懂度，改善骨导语音质量，达到良好的增强效果。

无人停车库运维安全的人工智能检测方法及装置-201810434317.4
发明人：钟超;刘洋 -专利权人：上海极歌企业管理咨询中心（有限合伙）
申请日： 2018-05-08 - 公布日： 2018-10-09 - 主分类号： G10L25/30
摘要：本公开揭示了一种无人停车库运维安全的人工智能检测方法及装置，属于计算机人工智能技术领域。所述方法包括：获取无人停车库运维过程中对升降机设备采集的声音信号，将所述声音信号转换为声音频谱，采用预设的三层卷积层与平均池化层交错对所述声音频谱进行处理，提取所述声音频谱的频谱特征，根据所述频谱特征进行运维安全的识别。上述无人停车库运维安全的人工智能检测方法及装置能够实时对无人停车库进行运维安全检测，提高无人停车库的运维安全检测效率。

基于人工智能的语音处理方法及装置-201710184721.6
发明人：邹伟;李先刚;崔玮玮;胡静远 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2017-03-24 - 公布日： 2017-08-01 - 主分类号： G10L25/30
摘要：本发明提出一种基于人工智能的语音处理方法及装置，其中，该方法包括接收语音处理请求，所述请求中包括第一数字语音信号及所述第一数字语音信号对应的第一采样频率；根据所述第一采样频率，从预先训练生成的语音处理模型库中，选取目标语音处理模型；利用所述目标语音处理模型，对所述第一数字语音信号进行升采样处理，生成具有第二采样频率的第二数字语音信号，其中，所述第二采样频率大于所述第一采样频率。通过本发明提供的基于人工智能的语音处理方法及装置，实现了对具有低采样频率的数字语音信号的升采样，提高了语音信号的音质，改善了用户体验。

在线英语口语评估系统-201610912307.8
发明人：李曙光 -专利权人：北京创新伙伴教育科技有限公司
申请日： 2016-10-20 - 公布日： 2017-05-10 - 主分类号： G10L25/30
摘要：本发明涉及教育自动化领域，具体涉及一种在线英语口语评估系统。在线英语口语评估系统，包括以下模块语音预处理模块，用于将待评测的英语口语音频文件随机分割为等长度切片；卷积神经网络分析模块，对得到的音频切片进行短时傅里叶变换生成对应的二维时频图，再逐个对二维时频图进行高级抽象，得到音频切片的高级抽象特征；评估与反馈模块，通过机器学习模型逐个对音频切片的高级抽象特征进行分析得到每个音频切片的分数，再对所有得分取平均数即得到最终的英语口语评估分数。

一种基于MOAS的深层特征提取方法-201610333538.3
发明人：杨继臣;刘磊安 -专利权人：仲恺农业工程学院
申请日： 2016-05-19 - 公布日： 2016-10-12 - 主分类号： G10L25/30
摘要：本发明涉及深层特征提取的方法，更具体地，涉及一种使用MOAS作为输入提取深层特征的方法。包括：（1）构建一个RBM；（2）训练RBM；（3）构建深层特征提取器；（4）将MOAS作为深层特征提取器的输入，提取深层特征。本发明将MOAS作为输入提取有效的深层特征，不仅可以节省训练的深度层数；而且提取到的有用信息会比使用浅层特征作为输入多。

一种声音分析方法及装置-201510819750.6
发明人：丛韫;杜状状;高冲红;童茜雯;郑义;仲倩 -专利权人：南京工程学院
申请日： 2015-11-23 - 公布日： 2016-04-20 - 主分类号： G10L25/30
摘要：本发明实施例公开了一种声音分析方法及装置，涉及声音识别技术领域，能够以较低的成本提高音频文件的来源设备识别的准确率。本发明的方法包括：将采集的声音信号，通过不同的压缩算法以相同采样率和比特率根据所采集的声音信号得到分别对应不同的压缩算法的音频文件；从对应不同的压缩算法的音频文件中提取无声段，并根据所提取的无声段得到语音特征信号；利用所述语音特征信号作为训练数据训练BP神经网络，并通过完成训练的BP神经网络分析测试信号，识别生成所述测试信号的录音设备本发明适用于识别音频文件的来源设备。

基于深层神经网络特征映射的非对称语音转换方法-201310468769.1
发明人：鲍静益;徐宁 -专利权人：常州工学院
申请日： 2013-10-09 - 公布日： 2014-01-22 - 主分类号： G10L25/30
摘要：本发明公开了一种基于深层神经网络特征映射的非对称语音转换方法，属于语音转换技术领域。本发明的一种基于深层神经网络特征映射的非对称语音转换方法，针对源语音和目标语音的非对称数据，首先利用深层网络的预训练功能对其进行概率建模，通过提炼语音信号中蕴含的高阶统计特性，给出网络系数的后备优选空间；其次，利用少量对称数据进行增量学习，通过优化后的传递误差来修正网络权重系数，从而实现特征参数的映射。本发明优化了网络系数结构，并将其作为深层前向预测网络的参数初始值，进而在少量对称数据的增量学习过程中，反向传导优化网络结构参数，实现说话人的个性特征参数的映射。

一种自动识别中国少数民族传统乐器音频数据的方法-201310226990.6
发明人：郑蕊蕊;李敏;张俊星;吴宝春 -专利权人：大连民族学院
申请日： 2013-06-07 - 公布日： 2013-09-25 - 主分类号： G10L25/30
摘要：本发明公开了一种自动识别中国少数民族传统乐器音频数据的方法，其特征在于：其内容包括如下步骤：采用录音设备采集由少数民族传统乐器弹奏的音频信号；对音频信号进行预处理，主要包括抗混叠滤波、预加重、分帧和端点检测等内容；音频特征提取采用MFCC提取的音频特征；设计三层结构的BP人工神经网络分类器进行训练,其中间层的结点个数采用遗传算法根据人工神经网络的训练结果自动择优确定；用训练好的BP人工神经网络分类器识别乐器种类并输出对应乐器的图片。本发明能对我国48种少数民族传统乐器弹奏的音频数据识别其弹奏的乐器：所采用的方法针对性强、抗干扰能力强、识别准确率高。

一种说话人声音转换方法-201210528629.4
发明人：陈凌辉;戴礼荣;凌震华 -专利权人：中国科学技术大学
申请日： 2012-12-11 - 公布日： 2013-03-20 - 主分类号： G10L25/30
摘要：本发明公开了一种说话人声音转换方法，包括训练阶段和转换阶段，训练阶段包括：从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征；根据所述基频特征构建基频转换函数；根据所述说话人特征构建说话人转换函数。转换阶段包括：从源说话人的待转换语音信号中提取基频特征和频谱特征；使用训练阶段得到的基频转换函数和说话人转换函数对从所述待转换语音信号中提取出的基频特征和说话人特征进行转换，得到转换后的基频特征和说话人特征；根据所得到的转换后的基频特征、说话人特征和待转换语音信号中的内容特征合成目标说话人的语音。本发明易于实现且转换后的音质和相似度较高。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种深度双向门递归神经网络的骨导语音增强方法有效

专利文献下载