[发明专利]一种基于DNN噪声分类的语音增强方法在审

申请号：	201811587392.0	申请日：	2018-12-25
公开（公告）号：	CN109559755A	公开（公告）日：	2019-04-02
发明（设计）人：	高天寒;陈爽	申请（专利权）人：	沈阳品尚科技有限公司
主分类号：	G10L21/02	分类号：	G10L21/02;G10L25/30;G10L25/24;G10L15/16;G10L15/06;G10L25/18
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	刘晓岚
地址：	110006 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于DNN噪声分类的语音增强方法，涉及语音识别技术领域。该方法首先对噪声信号进行预处理，确定非语音段信号；然后对每帧语音信号进行快速傅里叶变换并计算谱线能量；使语音信号的频谱通过梅尔滤波器组，用频谱能量乘以梅尔滤波器的频率响应来获得梅尔滤波能量；然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换，得到梅尔倒谱参数，将其作为语音每帧的梅尔滤波的特征向量；将每帧的梅尔滤波的特征向量作为一个24维的向量，并作为深度神经网络的输入；利用深度神经网络模型对噪声进行训练与分类；本发明的基于DNN噪声分类的语音增强方法，通过对噪声的分类使得后续的语音增强质量在主观/客观测试中得到了显著的提高。
搜索关键词：	梅尔语音增强噪声分类滤波能量特征向量语音信号滤波噪声快速傅里叶变换离散余弦变换神经网络模型语音识别技术滤波器预处理倒谱参数非语音段客观测试滤波器组频率响应频谱能量神经网络噪声信号分类频谱谱线向量语音主观
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于DNN噪声分类的语音增强方法，其特征在于：包括以下步骤：步骤1、通过均值、标准化和预加重，分帧加窗这些方法对噪声信号进行预处理，在语音处理系统的语音活动检测模块中加窗确定非语音段信号；然后对每帧语音信号进行快速傅里叶变换并计算谱线能量；使语音信号的频谱通过梅尔滤波器组，用频谱能量乘以梅尔滤波器的频率响应Hm(k)来获得梅尔滤波能量，如下公式所示：其中，s(m)为梅尔滤波能量，Xa(k)为输入语音离散余弦变换值，k为滤波器个数，N表示傅里叶变换点数，m表示当前帧，M表示该语音中包含的所有帧数；然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换，得到梅尔倒谱参数，将其作为语音每帧的梅尔滤波的特征向量，如下公式所示：其中，C(n)为每帧信号的梅尔倒谱参数，n表示进行离散余弦变换的每帧信号，L表示该语音中包含的进行离线变换的所有帧数；步骤2、将每帧的梅尔滤波的特征向量作为一个24维的向量，并作为深度神经网络的输入；所述深度神经网络采用具有3个反向神经网络的学习向量量化神经网络系列的深度神经网络模型，该模型分为输入层，输出层和竞争层，并且3个反向神经网络处于并行模式；步骤3、利用步骤2所述的深度神经网络模型对噪声进行训练与分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳品尚科技有限公司，未经沈阳品尚科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811587392.0/，转载请声明来源钻瓜专利网。

上一篇：一种针对摔倒识别的语音救援方法及系统
下一篇：滤波系数确定方法、回声消除方法、相应装置及设备

同类专利

语音降噪方法及装置-201811584024.0
发明人：聂镭;沙露露;郑权;张峰;聂颖 -专利权人：龙马智芯（珠海横琴）科技有限公司
申请日： 2018-12-24 - 公布日： 2019-10-25 - 主分类号： G10L21/02
摘要：本发明公开了一种语音降噪方法及装置。其中，该方法包括：将目标带噪语音信号按照预定格式中的采样频率进行采样，得到目标带噪语音信号的采样点一；通过语音增强模型，确定与目标带噪语音信号的采样点一对应的目标去噪语音信号的采样点二，其中，语音增强模型为使用多组训练数据通过机器学习训练得到的，多组训练数据中的每组训练数据均包括：带噪语音信号的采样点和与带噪语音信号的采样点对应的去噪语音信号的采样点；将目标去噪语音信号的采样点二转换目标语音的去噪语音。本发明解决了相关技术中用于对语音进行降噪的方式比较复杂，导致的与语音进行降噪的效率较低的技术问题。

用于控制车辆中的车辆声音的方法和设备-201910279363.6
发明人： D.特鲁姆皮;D.S.文卡塔;S.阿达里;K.J.巴斯泰尔;J.德姆宾斯基;N.佩尔 -专利权人：哈曼国际工业有限公司
申请日： 2019-04-09 - 公布日： 2019-10-22 - 主分类号： G10L21/02
摘要：本公开涉及用于车辆的主动声音管理的系统和方法。在一个实施方案中，用于车辆的主动声音管理的过程包括：确定车辆操作状态和所述车辆的动力系统操作；以及检测由所述车辆的所述动力系统操作产生的声音。可以基于以下项确定用于输出的合成声音：选择由所述动力系统产生的所述声音的至少一个频率，以驱动正弦波发生器的频率；基于动力系统操作将输出波文件与频率的音调偏移合成；以及将正弦波发生器输出与所述合成波文件混合，以消除不需要的动力系统噪声并且产生车辆的所需声音。可以控制所述合成声音的输出，以提供至少一个相同频率范围内的同时消除与合成。

语音数据降噪方法、装置、计算机设备和存储介质-201910650447.6
发明人：欧阳碧云;王晶晶 -专利权人：平安科技（深圳）有限公司
申请日： 2019-07-18 - 公布日： 2019-10-15 - 主分类号： G10L21/02
摘要：本申请涉及一种基于人工智能的语音数据降噪方法、装置、计算机设备和存储介质，包括：接收终端发送的降噪请求，并获取待处理音频数据对应特征组合，以及特征组合内各特征之间的关联关系。根据各特征和各特征之间的关联关系，计算各特征组合的区分度。根据预设的区分度阈值对各特征组合进行筛选，获得初始特征组合，利用预设评价指标对初始特征组合进行筛选，获得可用特征组合，并获取可用特征组合对应的待处理音频数据，生成基于区分度的第一初始音频数据，基于深度学习降噪模型，对第一初始音频数据进行降噪处理，生成降噪后的语音数据。本方法利用深度学习降噪模型对基于区分度的语音数据进行降噪，提高了语音数据降噪效果。

一种音频信号的降噪处理方法和装置及电子设备-201510164530.4
发明人：苏环宇;邓滨;李伟南 -专利权人：质音通讯科技(深圳)有限公司
申请日： 2015-04-08 - 公布日： 2019-10-15 - 主分类号： G10L21/02
摘要：本发明实施例提供一种音频信号的降噪处理方法和装置及电子设备。该方法包括：获取通过摄录装置采集的原始音频信号；获取所述原始音频信号中初始时段信号的噪音特征参数，并将所述噪音特征参数作为第一降噪处理算法的初始降噪参数，对所述初始时段信号进行降噪处理；保存降噪处理后的有效音频信号。本发明实施例的技术方案，相当于对原始音频信号中位于初始时段的信号进行了迭代降噪处理，缩短了音频降噪处理的收敛时间，使得录制的语音信号或视频多媒体中的音频信号从一开始就进行有效的降噪处理，从而提高所录制信息的整体语音质量，改善了用户体验。

一种基于二阶微分麦克风阵列的语音增强算法-201910275383.6
发明人：李冬梅;辜君龙;刘润生 -专利权人：清华大学
申请日： 2019-04-08 - 公布日： 2019-10-08 - 主分类号： G10L21/02
摘要：本发明提出一种基于二阶微分麦克风阵列的语音增强算法，属于语音信号处理领域。该方法首先搭建麦克风阵列并采集说话人语音的3路语音信号，使用二阶微分算法提取目标语音波束形成信号和噪声波束形成信号并分帧分频带，任意选取一路语音信号分帧分频带，计算每个时频单元的掩蔽值并进行平滑处理，得到每个时频单元增强后的语音的时频单元值；最后通过逆傅里叶变换，加窗并重叠相加得到说话人语音对应的增强信号。该方法结合波束形成算法与计算听觉场景分析算法，将波束形成结果仅作为目标语音和噪声能量的估计，并对计算听觉场景分析中掩蔽值产生过程进行了优化，使得掩蔽值更加平滑适宜于实际应用场景，使得最终语音合成后增强效果明显。

对于超高动态范围的主动声学回声消除-201910132943.2
发明人：塞巴斯蒂安·罗森基维茨 -专利权人：英特尔公司
申请日： 2019-02-22 - 公布日： 2019-09-24 - 主分类号： G10L21/02
摘要：本公开涉及对于超高动态范围的主动声学回声消除。讨论与主动声学回声消除有关的技术。这些技术可以包括生成其中具有对应于第一音频频率范围的部分的音频输出信号，以按照响应取消率取消音频输入设备对来自扬声器的第二音频频率范围中的输出的响应；以及基于响应取消率抽取音频输入信号，以生成结果音频输入信号。

一种应用于地空通信的实时话音降噪系统-201910213860.6
发明人：姚元飞;陈洪瑀;王群 -专利权人：成都天奥信息科技有限公司
申请日： 2019-03-20 - 公布日： 2019-09-13 - 主分类号： G10L21/02
摘要：本发明公开了一种应用于地空通信的实时话音降噪系统，包括电源、话音输入接口、话音输出接口、音频AD/DA以及降噪处理单元，其中：所述电源用于接收外部电源的输入，并为所述话音输入接口、话音输出接口、音频AD/DA以及降噪处理单元供电；所述话音输入接口用于接收音频信号；所述音频AD/DA用于将所述音频信号转换成数字信号，并发送至降噪处理单元；所述降噪处理单元对所述数字信号进行降噪处理，并生成降噪话音发送至音频AD/DA中转换成模拟信号；所述话音输出接口用于将所述模拟信号向外部输出。

音频远程互动方法及系统-201910414171.1
发明人：石嘉倪 -专利权人：四川易简天下科技股份有限公司
申请日： 2019-05-17 - 公布日： 2019-09-06 - 主分类号： G10L21/02
摘要：本发明涉及音频远程互动方法及系统，包括三级音频采集和四级音频采集；三级音频采集，采集远端发送的音频信息发送给四级音频采集，从而进行本地播放；所述四级音频采集，一方面，接收三级音频采集所发送的远端发送的音频信息；另一方面，接收第三音频信息并发送给本地音频播放模块播放；所述第三音频信息为本地智能交互终端的音频信息；四级音频采集包括至少两个四级音频传输通道，从远端接收的音频信息通过其中一个通道发送给本地音频播放模块播放；还包括，从另一个通道回采所述第三音频信息，用于发送给远端。与现有技术相比，能够有效保证远程音频互动过程中的音频质量，达到更好的音频播放效果。

语音信号处理的方法及装置-201610348302.7
发明人：黄荣均 -专利权人：珠海市杰理科技股份有限公司
申请日： 2016-05-23 - 公布日： 2019-09-06 - 主分类号： G10L21/02
摘要：本发明涉及一种语音信号处理的方法及装置。其中所述方法包括以下步骤：将当前输入信号帧与相邻前一输入信号帧组合构成当前数据块；计算当前数据块的原始频谱和谐波峰值序列；根据谐波峰值序列应用梳状滤波器对原始频谱进行处理，得到当前数据块的当前数据块频谱；对当前数据块频谱进行时域反变换，得到当前数据块的当前时域处理信号；将当前时域处理信号的前一半长度数据，与相邻前一数据块的前一时域处理信号的后一半长度数据求和，得到输出语音信号。其通过梳状滤波器对语音信号谐波进行增强处理，压制非谐波部分分量。提升输出语音的质量。语音信号处理的装置也具有上述优点。

混合后回声消除系统及方法-201880007022.7
发明人： S·韦尔斯-鲁特福德;M·T·亚伯拉罕;J·C·吉布斯 -专利权人：舒尔获得控股公司
申请日： 2018-01-10 - 公布日： 2019-09-03 - 主分类号： G10L21/02
摘要：本发明提供回声消除系统及方法，所述回声消除系统及方法可从混合器的输出消除且抑制回声，所述混合器已混合来自例如麦克风等多个声源的音频信号。所述麦克风可能已例如在会议环境中从遥远位置或远端俘获语音及声音。所述回声消除可基于来自混合器的混合音频信号、从来自所述多个声源中的每一者的所述音频信号收集的信息及遥远音频信号而产生经回音消除混合音频信号。所述系统及方法可为计算高效型且资源友好型的。

语音增强方法、模型训练方法、装置和计算机设备-201810911283.3
发明人：王燕南;甄广启 -专利权人：腾讯科技（深圳）有限公司
申请日： 2018-08-10 - 公布日： 2019-08-27 - 主分类号： G10L21/02
摘要：本申请涉及一种语音增强方法、模型训练方法、装置和计算机设备，所述方法包括：获取语音；从所述语音中提取语音特征；根据所述语音确定用于识别说话人声学身份的身份特征；将所述语音特征和所述身份特征拼接，得到拼接特征；通过说话人无关的语音增强模型处理所述拼接特征，获得经过语音增强的目标语音。本申请提供的方案可以避免传统方案中因SI模型不是由说话者本人的语音训练所得而使所得的语音质量差的问题，从而提高了进行语音增强后所得目标语音的质量。

音频处理方法及终端设备-201810146292.8
发明人：杨磊;高巧展;王立众;李云川;马振昌;石迎波;王维钦 -专利权人：北京三星通信技术研究有限公司;三星电子株式会社
申请日： 2018-02-12 - 公布日： 2019-08-23 - 主分类号： G10L21/02
摘要：本发明提供了音频处理方法及终端设备，所述方法包括：确定出虚拟现实AR操作涉及的真实场景和/或操作后AR场景的混响参数；根据真实场景和/或操作后AR场景的混响参数，确定操作后AR场景对应的AR音频。本发明中真实场景和操作后AR场景的混响参数，能够反映AR操作对场景的混响效果的影响，根据真实场景和/或操作后AR场景的混响参数确定出的操作后AR场景对应的AR音频，可以使得用户可以听到与AR场景相匹配的声音，增强了用户针对AR场景的沉浸感，提升了用户的体验。

一种基于语义先验的选择性注意的多通道语音增强方法-201510574907.3
发明人：付强;王晓飞;国雁萌;颜永红 -专利权人：中国科学院声学研究所
申请日： 2015-09-10 - 公布日： 2019-08-20 - 主分类号： G10L21/02
摘要：本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合，特别适用于复杂的声学噪声和干扰环境场合。

双通道智能音频信号处理方法、系统及音频设备-201910412452.3
发明人：何磊;陈卓 -专利权人：湖南琅音信息科技有限公司
申请日： 2019-05-17 - 公布日： 2019-08-16 - 主分类号： G10L21/02
摘要：本发明公开了一种双通道智能音频信号处理方法、系统及音频设备，智能音频信号处理方法包括：形成前向波束和后向波束；计算所述前向波束的信噪比和后向波束的信噪比；根据所述前向波束的信噪比和后向波束的信噪比实现前向声音和后向声音的判别和切换。本发明可以防止大的噪声环境影响到方向判别的结果；本发明采用加权的方式对波束进行叠加，因此使得前后向波束的切换更加平滑。

用于车内通信的回声抑制的系统和方法-201711398579.1
发明人：马克·罗伯特·埃夫里 -专利权人： 2236008安大略有限公司
申请日： 2017-12-21 - 公布日： 2019-08-06 - 主分类号： G10L21/02
摘要：一种通过加强来增强语音的系统和方法，包括：由一个或多个麦克风捕获音频源产生的音频信号；将所述音频信号分解成多个虚拟音频源，其中所述音频源传送的音频声道的数量等于所述多个虚拟音频源的数量；估计从所述多个虚拟音频源中的每一个虚拟音频源到所述一个或多个麦克风的回声路径；以及，响应于所估计的回声路径，通过减去所述虚拟源中的每一个虚拟源对所述一个或多个麦克风的回声贡献来处理所捕获的音频信号。

语音处理系统-201821820139.0
发明人：沈生猛;唐远华;张军波 -专利权人：东莞市华泽电子科技有限公司
申请日： 2018-11-06 - 公布日： 2019-07-30 - 主分类号： G10L21/02
摘要：本实用新型公开了一种语音处理系统，其应用于汽车，具体地，该语音处理系统包括：麦克风模组，其包括至少两个麦克风；音区确认模块，其用于进入语音识别模式时，控制至少两个麦克风分别采集语音信号，根据语音信号确定目标语音源的位置，并根据目标语音源的位置，确认目标音区范围；音频处理模块，其用于采集目标音区范围的所需语音信号，并对所需语音信号进行处理得到播放用音频信号；至少两个扬声器组，其与音频处理模块连接，与目标音区范围对应的扬声器组用于输出播放用音频信号。本实用新型仅仅获取目标音区范围内的所需语音信号，从而有效避免了其他音区的语音信号和/或环境噪音的影响，从而提升了语音命令的识别效果。

语音信号增强方法及装置-201910336274.0
发明人：冯万健;张联昌;刘键涛 -专利权人：厦门亿联网络技术股份有限公司
申请日： 2019-04-24 - 公布日： 2019-07-12 - 主分类号： G10L21/02
摘要：本申请公开了一种语音信号增强方法及装置，通过将当前场景的语音信号基于预设的时长间隔分割成多个帧信号；基于预设步长，将多个帧信号输入训练好的神经网络，通过跳转连接的卷积层对多个帧信号进行卷积操作，获取多个增强后的帧信号；根据每个增强后的帧信号的时域，对每个增强后的帧信号进行叠加，获得增强后的语音信号。与现有技术相比，本申请通过神经网络对语音信号进行自动增强，无需人工干预，使得语音增强的效果和应用场景无需受限于预设方法及方法设计者，从而降低信号失真和额外杂音的出现频率，进而提高语音信号增强效果。

解决回声消除失效的方法、系统及存储介质-201711435157.7
发明人：陈文杰;赵文苓 -专利权人：深圳TCL新技术有限公司
申请日： 2017-12-26 - 公布日： 2019-07-05 - 主分类号： G10L21/02
摘要：本发明提供一种解决回声消除失效的方法、系统及存储介质，用于解决由于麦克风信号出现削顶失真，而引起的回声消除功能在一定时间内失效问题。麦克风收取的信号出现削顶失真，一般都是由于电视机本身播放的声音过大所导致，预设一个麦克风所允许收取的信号强度最大幅度值，当麦克风收取的信号大于或等于最大幅度值，就提示用户将电视机音量调小，或者电视机系统自动调小音量以确保麦克风收取的信号强度小于最大幅度值，使回声消除在信号不失真的情况下进行，自适应滤波函数W(n)的系数能一直保持稳定，避免了由于信号失真引起自适应滤波器多次收敛。本发明很好地解决了自适应滤波器由于麦克风信号出现削顶失真而多次收敛引起回声消除失效的问题。

一种环境自适应的语音混响消除方法和系统-201510761023.9
发明人：卓鹏鹏;李稀敏;肖龙源 -专利权人：厦门快商通科技股份有限公司
申请日： 2015-11-10 - 公布日： 2019-06-25 - 主分类号： G10L21/02
摘要：本发明公开一种环境自适应的语音混响消除方法和系统，该系统包括有混响模型训练装置、RT60获取装置以及音频处理装置；首先，考虑到RT60值的大小可以近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内)，本发明中将RT60值按大小分成多个区间，使用区间内的语音特征来训练混响模型，使得数据训练的更加充分，混响模型更有针对性；其次，通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应；再者，由于采用深度网络训练模型，在实际应用时就不需要估计混响分量，直接根据模型参数进行解码即可得到混响消除后的语音特征，减少了计算量。

一种增强说话人语音的方法及系统-201811536633.9
发明人：叶志坚;李稀敏;肖龙源;蔡振华;刘晓葳;谭玉坤 -专利权人：厦门快商通信息技术有限公司
申请日： 2018-12-14 - 公布日： 2019-05-21 - 主分类号： G10L21/02
摘要：本发明公开了一种增强说话人语音的方法及系统，其通过采集包含说话人的干净语音和噪音的训练用混合语音，并提取其混合STFT特征；并获取所述说话人的参考语音和对应的参考特征；根据所述混合STFT特征和所述参考特征，经三层全连接网络生成所述参考语音的掩膜；将所述掩膜与所述混合STFT特征相乘，得到所述说话人的增强STFT特征；最后通过ISTFT变换得到所述说话人的增强语音，完成模型的训练；使用时，只需将待增强说话人的混合语音和参考语音输入训练好的模型即可输出说话人的增强语音，抗噪效果更好，适用范围更广。

一种语音频信号的处理方法和装置-201410242233.2
发明人：刘泽新;苗磊 -专利权人：华为技术有限公司
申请日： 2014-06-03 - 公布日： 2019-05-03 - 主分类号： G10L21/02
摘要：本发明实施例公开了一种恢复语音频信号噪声成分的方法及装置，方法包括：接收码流，解码所述码流得到语音频信号；根据所述语音频信号确定第一语音频信号；确定所述第一语音频信号中每个采样值的符号和每个所述采样值的幅度值；确定自适应归一化长度；根据所述自适应归一化长度和每个所述采样值的幅度值确定每个所述采样值的调整幅度值；根据每个所述采样值的符号和每个所述采样值的调整幅度值确定第二语音频信号。本发明实施例对于具有上升沿或下降沿的语音频信号，在恢复其噪声成分时不会造成语音频信号恢复噪声成分后的信号具有回声，提高语音频信号恢复噪声成分后的信号的听觉质量。

一种基于ARM和DSP的语音增强装置-201820145170.2
发明人：董红松;刘振宇;邓雪峰;闫静;任鹏婷;孔跃辉 -专利权人：山西农业大学
申请日： 2018-01-28 - 公布日： 2019-05-03 - 主分类号： G10L21/02
摘要：本实用新型公开了一种基于ARM和DSP的语音增强装置，核心控制模块、语音编码模块、显示模块、键盘模块、协处理器模块以及可编程逻辑模块。核心控制模块通过可编程逻辑模块系列与协处理器模块相连接，可编程逻辑模块负责连接显示模块和键盘模块。语音信号输入至语音编码器进行数模转换转换成数字信号传递给协处理器模块，由协处理器模块对语音数据进行语音增强处理，从而达到去噪目的。整个系统中语音数据的交换由核心处理模块完成，整个系统采用时分通讯网络，系统中每一个终端按照一定频率在系统分配给其的时间片内收发和接收语音数据。

宽频带背景噪声与语音分离检测系统及方法-201610947596.5
发明人：何云鹏 -专利权人：成都启英泰伦科技有限公司
申请日： 2016-10-26 - 公布日： 2019-04-26 - 主分类号： G10L21/02
摘要：本发明涉及信息处理技术及传感信号处理领域，特别是涉及到一种宽频带背景噪声与语音分离检测系统，该系统包括当前帧时域能量计算电路、背景噪声计算电路、时域语音检测长短时平均能量比较电路、频域语音检测长短时频域能量比较电路、背景噪声比较电路、子带能量分布均匀性语音检测电路和语音帧数统计电路，本发明还公开了一种宽频带背景噪声与语音分离检测方法，本发明使用三级语音检测手段，对于高低频的背景噪声都有很好的检测效果，同时对于偶然断续行的噪声也有非常好的检测效果，大幅度提高了复杂噪声环境下语音检测的准确性。

一种会议系统麦克风削波自检方法-201811552489.8
发明人：胡佩佩;高可攀;徐晓峰;李夏宾 -专利权人：深圳市潮流网络技术有限公司;潮流网络有限公司
申请日： 2018-12-19 - 公布日： 2019-04-12 - 主分类号： G10L21/02
摘要：本发明公开了一种会议系统麦克风削波自检方法，主要包括以下操作：步骤a.对麦克风采集的语音数据进行削波判断；步骤b.对削波信号降低麦克风的模拟增益，再次播放语音文件，判断削波情况，直至判断为不削波为止。其中步骤a主要通过会议系统的扬声器自动播放一段语音信号A，其本地麦克风自动采集这一段语音信号B，通过计算出语音信号B的最大声压级与设定的削波时的临界最大声压级进行对比，从而判断语音信号B是否削波。本发明方法提高回声消除的参考信号与近端信号中的回声信号的相关性计算的准确性，从而改善回声消除的效果，提高通话过程音频质量。

一种基于雷达语音与麦克风语音相融合的语音增强方法-201811577514.8
发明人：李盛;吕东旭;徐教礼;宋欣欣;路国华;王健琪 -专利权人：西京学院
申请日： 2018-12-20 - 公布日： 2019-04-05 - 主分类号： G10L21/02
摘要：一种基于雷达语音与麦克风语音相融合的语音增强方法，包括将声源通过生物雷达和麦克风同步采集,生物雷达获取雷达语音,麦克风获取麦克风语音；将获取的雷达语音和麦克风语音进行时域叠加，得到迭加信号；将中得到的迭加信号进行去燥增强，得到相融后的语音信号；本发明具有提升所获取语音信号的质量，拓展传统语音信号检测能力，从而在更复杂的声学背景和更远的距离条件下获得更高质量的语音信号的优点。

基于左右声道编码的三方远程通讯中回声消除方法及系统-201510814856.7
发明人：单衍景;蒋国兴 -专利权人：北京华夏电通科技有限公司
申请日： 2015-11-23 - 公布日： 2019-04-05 - 主分类号： G10L21/02
摘要：一种基于左右声道编码的三方远程通讯中回声消除方法及系统，包含：第一从方对第一从方发出音频数据及第一从方接收音频数据进行编码；第二从方对第二从方发出音频数据及第二从方接收音频数据进行编码；主方将主方发出的音频数据及解码后的第一从方发出的音频数据和解码后的第二从方发出的音频数据进行混音处理，获得第一数据、第二数据及第三数据；主方对第一数据和第二数据分别进行编码；第一从方播放第一从方发出音频数据和第二数据混合的音频数据；第二从方播放第二从方发出音频数据和第一数据混合的音频数据；主方播放第三数据的音频数据。以此，实现三方远程通讯的回声消除，确保三方远程通讯时的良好的音效，不产生相关回声干扰。

基于多路声音编码的三方远程通讯中回声消除方法及系统-201510815524.0
发明人：单衍景;蒋国兴 -专利权人：北京华夏电通科技有限公司
申请日： 2015-11-23 - 公布日： 2019-04-05 - 主分类号： G10L21/02
摘要：一种基于多路声音编码的三方远程通讯中回声消除方法及系统，包含：对第一从方和第二从方发出的音频数据分别进行编码；主方对上述两从方发出的音频数据进行解码并与主方发出的音频数据进行混音处理，获得包含第一从方发出的音频数据和主方发出的音频数据的第一数据和包含第二从方发出的音频数据和主方发出的音频数据的第二数据及包含三方的音频数据的第三数据；主方对第一数据和第二数据分别进行编码；第一从方解码器与第二从方解码器分别解码第二数据和第一数据；第一从方播放器播放第一从方发出音频数据和第二数据混合的音频数据；第二从方播放器播放第二从方发出音频数据和第一数据混合的音频数据；主方播放器播放第三数据的音频数据。

一种基于DNN噪声分类的语音增强方法-201811587392.0
发明人：高天寒;陈爽 -专利权人：沈阳品尚科技有限公司
申请日： 2018-12-25 - 公布日： 2019-04-02 - 主分类号： G10L21/02
摘要：本发明提供一种基于DNN噪声分类的语音增强方法，涉及语音识别技术领域。该方法首先对噪声信号进行预处理，确定非语音段信号；然后对每帧语音信号进行快速傅里叶变换并计算谱线能量；使语音信号的频谱通过梅尔滤波器组，用频谱能量乘以梅尔滤波器的频率响应来获得梅尔滤波能量；然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换，得到梅尔倒谱参数，将其作为语音每帧的梅尔滤波的特征向量；将每帧的梅尔滤波的特征向量作为一个24维的向量，并作为深度神经网络的输入；利用深度神经网络模型对噪声进行训练与分类；本发明的基于DNN噪声分类的语音增强方法，通过对噪声的分类使得后续的语音增强质量在主观/客观测试中得到了显著的提高。

一种用户自定义词的语音识别增强方法和装置-201811424175.X
发明人：张明;关磊;王东;刘荣 -专利权人：北京分音塔科技有限公司;清华大学
申请日： 2018-11-27 - 公布日： 2019-03-26 - 主分类号： G10L21/02
摘要：本发明涉及一种用户自定义词的语音识别增强方法和装置，所述方法包括：获取用户自定义词；将用户自定义词拆分为已有词语的组合；将用户自定义词拆分后的已有词语组合生成用户自定义词典FST图；将用户自定义词典FST图和原有的解码图进行合并处理，得到合并后的解码图；利用合并后的解码图对用户输入的语音进行语音识别处理。本发明所述方法通过将用户自定义词FST图和原有的HCLG解码图合并，完成了对用户自定义词的权重增强，从而提高了对用户自定义词的识别效果；并且本方法充分利用了语音识别中解码图的信息，并在语音识别过程中充分结合了声学模型和语言模型的信息进行路径搜索，从而增强了对用户自定义词的识别准确率。

一种麦克风阵列控制方法、装置及车辆-201811208528.2
发明人：马东辉;谢智斌 -专利权人：北京车和家信息技术有限公司
申请日： 2018-10-17 - 公布日： 2019-03-19 - 主分类号： G10L21/02
摘要：本发明公开了一种麦克风阵列控制方法、装置及车辆，所述车辆设置有用于对各座椅进行拾音的麦克风阵列，所述麦克风阵列控制方法包括：检测所述车辆的座椅状态，所述座椅状态包括有乘员或者无乘员；根据所述座椅状态，设置所述座椅对应的麦克风阵列的工作模式。这样，通过检测车辆的座椅状态，以确定车辆的各座椅上是否有乘员，从而可以根据检测结果提前设置各座椅对应的麦克风阵列的工作模式，而无需等待麦克风阵列对车内语音信号进行声源定位之后再进行设置，进而车内语音交互效果既不会受到声源定位准确率的制约，且可以缩短对麦克风阵列的工作模式的调整时延。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DNN噪声分类的语音增强方法在审

专利文献下载