[发明专利]基于人工智能的一体机人机交互系统和方法在审

申请号：	202311203292.4	申请日：	2023-09-19
公开（公告）号：	CN116935880A	公开（公告）日：	2023-10-24
发明（设计）人：	李士中	申请（专利权）人：	深圳市一合文化数字科技有限公司
主分类号：	G10L21/0224	分类号：	G10L21/0224
代理公司：	郑州芝麻知识产权代理事务所(普通合伙) 41173	代理人：	张丹丹
地址：	518000 广东省深圳市龙岗区坂***	国省代码：	广东;44
权利要求书：	暂无信息	说明书：	暂无信息
摘要：	本发明涉及音频数据处理技术领域，具体涉及一种基于人工智能的一体机人机交互系统和方法，该方法在获取待去噪一体机音频数据中各个时间长度的局部音频数据段后，对局部音频数据与一体机历史音频数据之间的语谱图的相似程度进行分析，筛选出最优时间长度；根据最优时间长度划分出一体机参考音频数据段，并结合其与一体机历史音频数据之间的数据分布情况，得到对应的噪声可信程度，进一步通过噪声可信程度计算出对应的过减因子，通过减因子对每个一体机参考音频数据段进行分别去噪，得到去噪后的真实一体机音频数据并进行一体机人机交互。本发明通过对音频数据处理得到的真实一体机音频数据进行一体机人机交互的效果更好。
搜索关键词：	基于人工智能一体机人机交互系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市一合文化数字科技有限公司，未经深圳市一合文化数字科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202311203292.4/，转载请声明来源钻瓜专利网。

上一篇：一种用于连退镀锌线高温炉辊的抛光装置
下一篇：一种恒温控制系统

同类专利

一种基于深度学习的两阶段网络降噪和去混响方法-202210355142.4
发明人：刘宏清;夏俊杰 -专利权人：重庆邮电大学
申请日： 2022-04-06 - 公布日： 2023-10-24 - 主分类号： G10L21/0224
摘要：本发明涉及一种基于深度学习的两阶段网络降噪和去混响方法，属于语音处理领域，依据干扰信号的性质差异将背景噪声和房间混响分为降噪阶段和去混响阶段处理。首先对两个阶段的网络进行单独训练，保留训练的权重参数及相关配置，并进一步移植到时域两阶段网络中进行联合训练。本发明在时域对噪声和混响进行处理，不需要对语音信号进行额外的变换，避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析，时域两阶段网络相对于单级网络和频域网络，均能够表现出更好的性能。

基于人工智能的一体机人机交互系统和方法-202311203292.4
发明人：李士中 -专利权人：深圳市一合文化数字科技有限公司
申请日： 2023-09-19 - 公布日： 2023-10-24 - 主分类号： G10L21/0224
摘要：本发明涉及音频数据处理技术领域，具体涉及一种基于人工智能的一体机人机交互系统和方法，该方法在获取待去噪一体机音频数据中各个时间长度的局部音频数据段后，对局部音频数据与一体机历史音频数据之间的语谱图的相似程度进行分析，筛选出最优时间长度；根据最优时间长度划分出一体机参考音频数据段，并结合其与一体机历史音频数据之间的数据分布情况，得到对应的噪声可信程度，进一步通过噪声可信程度计算出对应的过减因子，通过减因子对每个一体机参考音频数据段进行分别去噪，得到去噪后的真实一体机音频数据并进行一体机人机交互。本发明通过对音频数据处理得到的真实一体机音频数据进行一体机人机交互的效果更好。

一种基于切比雪夫展开式的语音增强方法-202310928010.0
发明人：孙成立;孙慧冰;陈飞龙;彭建坤;江炜琦;唐群峰;刘子炎;何锐彬 -专利权人：南昌航空大学;朝阳聚声泰（信丰）科技有限公司
申请日： 2023-07-27 - 公布日： 2023-10-20 - 主分类号： G10L21/0224
摘要：本发明涉及语音处理技术领域，尤其涉及一种基于切比雪夫展开式的语音增强方法，所述方法包括：对需增强的语音信号进行短时傅里叶变换；切比雪夫级数的零阶项网络采用U2‑Net网络结构对信号进行幅度先验估计，得到粗略估计的复频谱；切比雪夫级数的高阶项网络用来估计复频谱残差项，将其定义为目标频谱与粗谱之间的相位差以细化目标频谱，再将残差分量表述为各高阶切比雪夫项的组合，并用一个轻量级的可训练模块来取代相邻项之间的算法；根据切比雪夫级数进行叠加零阶项和高阶项，恢复目标频谱。本发明受到切比雪夫级数的启发，构建了一种模拟切比雪夫展开式的零阶项和高阶项的一个可解释的两阶段解耦式网络，得到最后增强的目标语音信号。

基于能量的语音激活检测方法、装置及芯片-202311162975.X
发明人：吴昌盛 -专利权人：归芯科技（深圳）有限公司
申请日： 2023-09-11 - 公布日： 2023-10-17 - 主分类号： G10L21/0224
摘要：本发明提供一种基于能量的语音激活检测方法、装置、芯片及存储介质，包括：获取语音能量估计跟踪曲线的一阶差分曲线和/或二阶差分曲线；依据所述一阶差分曲线和/或二阶差分曲线，获取语音激活结果。本发明提供的基于能量的语音激活检测方法、装置、芯片及存储介质，能够为语音降噪和回声抑制提供更好的语音激活判断，实现更加良好的语音增强效果。

一种基于单麦克风的瞬态噪声检测与抑制的方法及装置-202310267550.9
发明人：梁民 -专利权人：全时云商务服务股份有限公司
申请日： 2023-03-20 - 公布日： 2023-09-22 - 主分类号： G10L21/0224
摘要：本发明涉及一种基于单麦克风的瞬态噪声检测与抑制的方法及装置，其方法包括：通过单麦克风接收包含噪声的时域数字语音信号；将包含噪声的时域数字语音信号经短时傅里叶变换器变换为对应的包含噪声的短时频谱；通过稳态噪声抑制器预处理模块对包含噪声的短时频谱进行稳态降噪预处理，得到对应的预处理后的短时频谱；通过瞬态噪声抑制器对预处理后的短时频谱进行增强处理，得到对应的增强短时频谱；以及通过逆短时傅里叶变换器，对增强短时频谱进行转换处理，得到对应的时域增强数字语音信号，以通过时域增强数字语音信号完成稳态和瞬态噪声背景下的语音增强任务。

基于改进的INMF的声学降噪方法及装置-202310562147.9
发明人：余永升;郭焕 -专利权人：海纳科德（湖北）科技有限公司
申请日： 2023-05-16 - 公布日： 2023-09-19 - 主分类号： G10L21/0224
摘要：本发明公开了基于改进的INMF的声学降噪方法，包括：对纯净漏气信号、干扰噪声信号分别进行短时傅里叶变换得到各自的幅度谱；使用改进的INMF算法将纯净漏气信号的幅度谱分解成字典矩阵，将干扰噪声信号的幅度谱分解成字典矩阵，将与合并构成联合字典矩阵，作为训练过程的先验信息；实时采集含有噪声的漏气信号，并进行短时傅里叶变换得到所述含有噪声的漏气信号的幅度谱；使用改进的INMF算法和改进的自适应MMSE‑LSA算法实时估计出含有噪声的漏气信号降噪后的幅度谱；利用含噪信号的相位不变性，通过逆短时傅里叶变换得到降噪后的时域漏气信号。克服了传统方法不能有效估计实时变化信号的缺陷。

一种语音增强处理方法、装置、电子设备及介质-202310773974.2
发明人：毛婷婷 -专利权人：歌尔智能科技有限公司
申请日： 2023-06-27 - 公布日： 2023-09-15 - 主分类号： G10L21/0224
摘要：本发明公开了一种语音增强处理方法、装置、电子设备及介质，适用于信号处理技术领域。将语音信号分别进行时频分析和频域分析得到对应的时域信号和频域信号的两种特征信号，根据两种特征信号确定的语音存在概率，相对于现有的单一特征，在高噪环境下仅用时域特征，加大语音和噪声的区分度，在低噪环境下仅用频域特征，提高语音存在概率的估计准确度。将语音存在概率进行平滑处理，可以平衡较少语音失真情况下噪声跟踪较慢的问题。根据平滑后的语音存在概率与门限值的关系确定不同语音增强处理方式，实现对不同情况进行区分，采用不同的噪声估计方式得到噪声估计，同时提高噪声估计的准确值和降噪过程中的语音还原度。

基于掩码时域解码器的实时语音降噪方法和装置-202110299114.0
发明人：李平平 -专利权人：杭州知存智能科技有限公司
申请日： 2021-03-20 - 公布日： 2023-08-29 - 主分类号： G10L21/0224
摘要：本发明提供一种基于掩码时域解码器的实时语音降噪方法和装置，该方法包括：将带噪语音通过Stft提取特征；将提取的特征输入预训练的神经网络得到掩码mask；将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音，其中，通过将一组加权函数(掩码)应用于时域解码器来处理带噪语音实现基于时域后处理的实时神经网络降噪，具有显着较小的模型尺寸和更短的最小等待时间，使其成为边缘设备实时降噪的合适解决方案。

音频处理方法及相关装置-202310309529.0
发明人：许剑峰 -专利权人：荣耀终端有限公司
申请日： 2023-03-28 - 公布日： 2023-08-29 - 主分类号： G10L21/0224
摘要：本申请实施例提供的音频处理方法及相关装置，涉及终端技术领域。方法包括：电子设备获取第一音频信号；电子设备分离出第一音频信号的人声成分和非人声成分；电子设备对人声成分中的齿音进行能量抑制；电子设备根据非人声成分与齿音抑制后的人声成分进行混音，得到第二音频信号。这样，可以实现对齿音的抑制，同时还可以避免对非人声成分的损伤，从而减少音色失真，提升用户体验。

一种语音增强方法、装置、设备及介质-202310684501.5
发明人：张雄伟;李毅豪;孙蒙;曹铁勇;邹霞;贾冲;李莉 -专利权人：中国人民解放军陆军工程大学
申请日： 2023-06-09 - 公布日： 2023-08-22 - 主分类号： G10L21/0224
摘要：本发明公开了一种语音增强方法、装置、设备及介质，其方法包括：获取待增强语音的时域波形；将待增强语音输入到训练好的双分支复数卷积循环神经网络中，获取语音分支和噪声分支的时域波形；将语音分支的时域波形作为增强结果输出；其中，训练过程包括：将带噪语音的时域波形输入构建的双分支复数卷积循环神经网络中，获取语音分支和噪声分支的时域波形；根据带噪语音对应的纯噪声语音和噪声分支的时域波形计算第一尺度敏感信噪比损失，根据带噪语音对应的干净语音和语音分支的时域波形计算第二尺度敏感信噪比损失，求和获取总损失；根据总损失采用梯度下降算法优化双分支复数卷积循环神经网络；本发明能够显著提高语音质量和可懂度。

空时域联合的稀疏驱动自适应线谱增强方法-202310519725.0
发明人：惠娟;李家旺;赵安邦 -专利权人：哈尔滨工程大学
申请日： 2023-05-09 - 公布日： 2023-08-11 - 主分类号： G10L21/0224
摘要：本发明公开了一种空时域联合的稀疏驱动自适应线谱增强方法，包括水听器的均匀线阵接收信源的远场平面波信号；将整个均匀线阵接收到的远场平面波信号输入空时联合滤波器；将下一个阵元接收到的远场平面波信号作为参考信号输入空时联合滤波器，直至处理完所有阵元接收到的远场平面波信号，以获取各个阵元各自对应的输出信号；获取各个输出信号各自对应的输出频谱；对多个输出频谱进行平方叠加并求平均，以获得输出结果；将输出结果从频域转换到时域，得到基于l1/2范数的稀疏驱动自适应线谱增强器的输入信号；将输入信号输入基于l1/2范数的稀疏驱动自适应线谱增强器进行权值更新；根据输入信号的长度持续迭代自适应权值，获取对应的输出信号。

鸟声音频的蝉鸣噪声消除方法、系统、装置及存储介质-202310521401.0
发明人：张承云;金能挺;高星辉;朱洁琪 -专利权人：广州大学
申请日： 2023-05-09 - 公布日： 2023-08-04 - 主分类号： G10L21/0224
摘要：本发明公开一种鸟声音频的蝉鸣噪声消除方法、系统、装置及存储介质，涉及计算机技术领域。其中，鸟声音频的蝉鸣噪声消除方法包括以下步骤：获取包含蝉鸣噪声的待处理鸟声音频；对所述待处理鸟声音频进行傅里叶变换得到第一幅度谱和第一相位谱；将所述第一幅度谱输入基于深度学习的鸟声降噪模型得到降噪后的第二幅度谱，其中，所述鸟声降噪模型包括依次连接的门控卷积编码器、序列建模模块和门控卷积解码器，所述序列建模模块包括分别用于对时间维度相关性和频率维度相关性建模的Conformer模块；将所述第一相位谱和所述第二幅度谱进行傅里叶逆变换得到降噪鸟声音频。本申请能够能够有效滤除鸟声音频中的蝉鸣噪声，提高鸟声音频降噪的降噪效果。

音频降噪方法、介质、装置和计算设备-202310547140.X
发明人：王志强;骆耀东;王宏良;阮良;徐杭生;陈丽 -专利权人：杭州网易智企科技有限公司
申请日： 2023-05-12 - 公布日： 2023-08-01 - 主分类号： G10L21/0224
摘要：本公开的实施方式提供了一种音频降噪方法、介质、装置和计算设备，涉及人工智能技术领域，该方法包括：获取待降噪音频信号，对待降噪音频信号进行时频转换处理，得到待降噪频域信号；提取待降噪频域信号的预设维度的声学特征，声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种；根据声学特征，确定待降噪音频信号存在音乐信号的第一概率；基于第一概率和待降噪频域信号的幅度谱，对待降噪频域信号进行降噪处理，得到待降噪音频信号对应的降噪音频信号。本公开对带噪音乐信号进行降噪处理时，能够在抑制噪声的同时，不损伤音乐音质，给用户高保真的极致音乐音质体验。

一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置-202111093818.9
发明人：何平;蒋升 -专利权人：随锐科技集团股份有限公司
申请日： 2021-09-17 - 公布日： 2023-07-25 - 主分类号： G10L21/0224
摘要：本发明公开了一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置，属于信息处理的领域，该方法包括以下步骤：S1：对麦克风的时域信号进行短时傅里叶变换得到时频域表达；S2：进行噪音信号功率谱密度估计，其具体包括：噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度；S3：建立维纳型噪音抑制因子，用于区分语音分量和噪音分量；S4：根据维纳型噪音抑制因子，得到目标语音的频域信号，进而获得目标语音时域信号。本发明可以有效降低语音失真，同时对原掩蔽值的误差可以有效平滑，提高原时频掩蔽估计的泛化性。

一种汉语语音增强方法-202310251699.8
发明人：王韬惟 -专利权人：西安电子科技大学
申请日： 2023-03-15 - 公布日： 2023-06-27 - 主分类号： G10L21/0224
摘要：本发明公开了一种汉语语音增强方法，包括：获取带噪语音信号，并将带噪语音信号的时域波形分割为多个语音信号序列；将语音信号序列输入语音增强模型，得到每个音信号序列对应的增强后的语音信号并依次拼接；其中，语音增强模型为：将预设数量的语音序列信号对xnoisy,xclean中的xnoisy输入待训练的时域语音增强模型后，基于比例系数矩阵Kα、xnoisy对应的xclean以及待训练的时域语音增强模型输出的增强语音信号xenhanced计算多分辨率损失函数的损失值，并通过反向传播调整待训练的时域语音增强模型的模型参数后得到的深度学习模型。本发明通过在计算损失值时引入比例系数矩阵Kα，可以基于各频段的重要程度对频段给予不同的关注度，从而提高了语音增强模型的语音增强性能。

一种低音提取方法、电子装置及计算机可读存储介质-202211105405.2
发明人：宋祥宗;吴文龙 -专利权人：深圳市千岩科技有限公司;深圳市智岩科技有限公司
申请日： 2022-09-09 - 公布日： 2023-06-23 - 主分类号： G10L21/0224
摘要：一种低音提取方法、电子装置及计算机可读存储介质，涉及音频控制技术领域。低音提取方法，包括：获取目标音频。在目标音频的时域范围内，计算目标音频的过零率。判断目标音频的过零率是否小于低音音频的预设阈值。若，目标音频的过零率小于预设阈值，则输出目标音频。本申请提供一种低音提取方法、电子装置及计算机可读存储介质，不需要作频率分离，只需在时域范围内对声音的波形进行分析就能获取到音频中的低音音频部分，并进一步以获取到的低音音频对目标设备进行相应的调控，对芯片的运算能力和内存的要求都比较低。

语音信号的参数化表达、加密传输和重构的方法-202010853837.6
发明人：李宁 -专利权人：南京工程学院
申请日： 2020-08-21 - 公布日： 2023-06-09 - 主分类号： G10L21/0224
摘要：本发明给出了一种基于数据驱动的语音信号参数化表达、加密传输和重构的方法和装置，该方法基于频带划分将频率成份混杂的信号分解成频率成份相对简单的低频分量和各个带通分量。以辛格函数为核函数，各个频率分量可以表达为核函数的线性组合，相应的系数成为唯一确定各个频率分量的参数组。由于辛格函数在频域呈现出频率窗口特性，辛格函数的主瓣在时域呈现出类似小波函数的急剧减小的特性，本发明给出的方法不仅在频域有很高的分辨率，在时域也具有局部性，可以体现各个频率分量在某个时间点上的变化，适合于处理类似于语音的非平稳信号，实现了语音信号的参数化表达，为加密传输提供了条件。运用语音信号的参数，可以唯一地重构还原语音信号。

一种骨传麦克风语音增强方法及装置、设备及存储介质-202310054459.9
发明人：梁山;陶建华;聂帅;李冠君;易江燕 -专利权人：中国科学院自动化研究所
申请日： 2023-02-03 - 公布日： 2023-06-02 - 主分类号： G10L21/0224
摘要：本公开涉及一种骨传麦克风语音增强方法及装置、设备及存储介质，所述方法包括：获取两种频域信号，并根据预设的截止频率，对所述两种频域信号分别进行截取，得到两种截取后频域信号；对所述两种截取后频域信号分别进行半波整流，得到两种半波整流后时域信号；按照预设的中间频带，根据所述两种半波整流后时域信号确定融合因子；根据融合因子对所述两种截取后频域信号进行融合，得到骨传麦克风语音增强语音，根据预设的截止频率作为滤波器组，先对两种频域信号进行截取和融合，并通过半波整流对整体信号进行修正，实现对噪声的有效抑制，能够保留骨传导麦克风清晰的低频信号，同时对其缺失的中、高频信息进行补充，得到感知质量更高的音频信号。

一种语音降噪模型的训练方法以及语音增强方法-202111353720.2
发明人：张鹏远;党风;颜永红 -专利权人：中国科学院声学研究所
申请日： 2021-11-16 - 公布日： 2023-05-19 - 主分类号： G10L21/0224
摘要：本申请提供了一种语音降噪模型的训练方法和语音增强方法。语音降噪模型包括：第一增强模块和第二增强模块，第一增强模块用于对输入的频谱进行降噪处理，输出频谱；第二增强模块用于对输入的频谱进行降噪处理，输出复数掩蔽。第一增强模块和第二增强模块的处理顺序根据声道的信噪比确定。其中，在声道的信噪比小于预设值时，先利用第一增强模块进行处理以恢复语音谐波，后利用第二增强模块进行处理以增强降噪性能。

车载语音的降噪方法、装置、车辆及存储介质-202310109477.2
发明人：朱守经;刘霖 -专利权人：小米汽车科技有限公司
申请日： 2023-02-02 - 公布日： 2023-05-09 - 主分类号： G10L21/0224
摘要：本公开涉及一种车载语音的降噪方法、装置、车辆及存储介质，该方法包括：通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息，根据用户选择的目标采集区域，从空间位置信息中确定与目标采集区域匹配的目标声源位置，根据麦克风阵列和目标声源位置，对车载空间内的用户语音进行采集，以生成音频数据信号，根据音频数据信号和目标声源位置，生成用户语音在时频域上的目标掩蔽值，根据目标掩蔽值对音频数据信号进行降噪处理，以生成目标音频信号。从而通过掩蔽值提取音频信号中的用户语音，抑制环境中的噪音和干扰人声，达到降噪的目的，提高了车载终端采集到的用户语音质量。

一种带降噪的人工耳蜗言语处理系统及方法-201610617620.9
发明人：王宁远;孙晓安;平利川;黄穗 -专利权人：浙江诺尔康神经电子科技股份有限公司
申请日： 2016-07-28 - 公布日： 2023-05-05 - 主分类号： G10L21/0224
摘要：本发明公开了一种带降噪的人工耳蜗言语处理系统及方法，其中方法包括以下步骤：对外界的声音信号进行拾取，拾取到的信号为带噪信号；对带噪信号进行时域到频域的转换；根据频率对带噪信号进行分频处理，将带噪信号划分至不同的频率通道；对每个通道的带噪信号的包络进行计算和提取；对每个通道的带噪信号的噪声功率谱进行估计；根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除。本发明用于对每个通道的带噪信号进行噪声功率谱的估计，通过二元掩蔽的方法对每个通道的噪声信号进行消除，从而实现提高人工耳蜗植入者在噪声环境下的言语识别率和听音感受的效果。

一种基于双线性分解的WLS多通道语音去混响方法-202211587593.7
发明人：曾小金 -专利权人：成都启英泰伦科技有限公司
申请日： 2022-12-12 - 公布日： 2023-03-10 - 主分类号： G10L21/0224
摘要：本发明公开了一种基于双线性分解的WLS多通道语音去混响方法,包括如下步骤:S1.采集混响语音时域信号；S2.以混响语音时域信号为基础描述参考麦克风信号模；S3.计算期望信号；S4.进行双线性分解：利用克罗内克乘积将预测滤波器系数向量分解为两个子滤波器；S5.求解预测滤波器系数向量；S6.正则化滤波器系数向量；S7.计算出去除混响之后的期望信号。本发明利用加权最小二乘方法，将最大似然估计问题转换为最小二乘问题进行处理。同时，由于矩阵在求逆过程中的计算复杂度较高，为了进一步降低计算量，引入了克罗内克积分解，将一个长的滤波器分解为两个短的子滤波器进行处理，从而使得算法在具有良好去混响性能的同时还拥有较低的计算复杂度。

一种极地声信号增强和识别方法-202210770485.7
发明人：李理;张宇翔;李向欣;苗洪波;殷敬伟 -专利权人：哈尔滨工程大学
申请日： 2022-06-30 - 公布日： 2023-02-10 - 主分类号： G10L21/0224
摘要：本发明提供一种极地声信号增强和识别方法，包括：对极地声信号中的脉冲干扰噪声进行时频联合提取，得到所有脉冲噪声出现的位置；对步骤1中获得的脉冲噪声位置在信号二维时频图上进行空间平滑滤波以去除脉冲噪声，然后用在时频图上做互相关得到互相关积分曲线，若互相关曲线积分值大于设定的阈值则判断动物/通信信号存在；以对步骤1获得的脉冲噪声位置为中心进行时域窗口的中值滤波，然后对信号提取线谱成分，并通过梳状滤波器进行净化，最后通过比较净化后线谱的方差值，若大于设定的方差阈值则判断船舶信号存在。本发明实现针对在极地中进行长期声呐信号采集获得的海量数据的自动增强和提取，降低对人工干预的依赖，提升效率。

一种基于卷积自注意力编码结构的语音增强方法-202211294392.8
发明人：曹焱翔;闫桐嘉;周琳;庄程浩;王启瑞;邓宇汐;程云苓 -专利权人：东南大学
申请日： 2022-10-21 - 公布日： 2023-02-07 - 主分类号： G10L21/0224
摘要：本发明公布了一种基于卷积自注意力编码结构的语音增强方法。在训练阶段将训练集纯净语音信号、含噪语音信号分别进行短时傅里叶变换，计算理想比例掩蔽矩阵作为训练标签，将含噪语音的幅度谱图作为卷积自注意力编码结构的输入特征进行训练。卷积自注意力编码结构由编码器、解码器、残差密集块和自注意力编码模块组成。在测试阶段，卷积自注意力编码结构将测试含噪语音的幅度谱图映射为掩蔽值矩阵，根据掩蔽值重构纯净语音的幅度谱图，结合原始含噪语音的相位谱，得到增强语音信号。在不同声学环境下的仿真测试表明，基于不同的语音质量客观评估方法，本发明显著提高含噪语音的客观评价指标，并且对于未知声学环境具有较强的泛化能力。

语音数据的降噪方法、车机、存储介质和电子设备-202211313076.0
发明人：姜广通;张振 -专利权人：亿咖通（湖北）技术有限公司
申请日： 2022-10-25 - 公布日： 2023-02-03 - 主分类号： G10L21/0224
摘要：本发明提供了一种语音数据的降噪方法、车机、存储介质和电子设备。语音数据的降噪方法，其中降噪方法应用于车机中，且车机包括数字信号处理器和系统级芯片，语音数据包括噪声和人声，降噪方法包括：将语音数据中的噪声和人声在数字信号处理器中进行模数转换得到数字信号类型的噪声和人声；将数字信号类型的噪声和人声在数字信号处理器中进行数据组包得到组包语音数据；将组包语音数据发送至系统级芯片；将系统级芯片接收的组包语音数据进行降噪，以除去其中的噪声，使人声采样信号和噪声采样信号的时间差值之间的时差明显减小或最小化，使降噪后的噪声大大减少，使还原出来的用于语音识别的人声中参杂的噪声大大减少，提高了语音识别的准确率。

对回声路径的语音延时估计方法、装置和存储介质-202110783456.X
发明人：高毅;罗程;李斌 -专利权人：腾讯科技（深圳）有限公司
申请日： 2021-07-12 - 公布日： 2023-01-17 - 主分类号： G10L21/0224
摘要：本申请涉及一种对回声路径的语音延时估计方法、装置、计算机设备和存储介质。所述方法包括：获取回声路径中与接收器对应的接收点处的当前接收音频帧；提取当前接收音频帧的音频指纹，得到当前第一音频特征；获取存储的多个第二音频特征；多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，基于匹配结果从多个第二音频特征中确定目标第二音频特征；根据目标第二音频特征所对应的存储顺序，确定回声路径的延时。采用本方法能够提升回声路径的延时确定效率。

语音增强方法、装置及设备-202210993891.X
发明人：熊飞飞;冯津伟 -专利权人：钉钉（中国）信息技术有限公司
申请日： 2022-08-18 - 公布日： 2022-12-23 - 主分类号： G10L21/0224
摘要：本申请公开了提供的语音增强方法、语音增强模型构建方法和会议设备。其中，语音增强方法通过构建基于听觉感知启发的神经网络结构的语音增强模型；采集声音信号；获取所述声音信号的经过频带压缩的高频信号；通过所述模型，根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号，获取频域上的复数理想比值掩蔽；根据所述掩蔽和所述声音信号，获取语音增强信号。采用这种方式，使得引用听觉感知启发的频带压缩处理，频带不均匀分布，这样在不损失效果性能(语音辨识度)的前提下，可以有效减少神经网络参数量，达到网络模型参数小，计算量小，更适用于实时语音通信，尤其是硬件资源有限的设备上。

一种基于FirePS卷积神经网络的语音增强方法-202211155820.9
发明人：王启瑞;周琳;程云苓;邓宇汐;王天仪 -专利权人：东南大学
申请日： 2022-09-22 - 公布日： 2022-12-20 - 主分类号： G10L21/0224
摘要：本发明公布了一种基于FirePS卷积神经网络的语音增强方法。本发明对含噪单通道语音信号进行短时傅里叶变换，提取对数幅度谱图，作为FirePS卷积神经网络的输入特征进行语音增强。训练阶段，使用训练集语音数据的对数幅度谱图训练FirePS卷积网络，输出增强语音的对数幅度谱图，将训练语音对应的纯净对数幅度谱图作为标签，训练得到基于卷积神经网络的语音增强模型。FirePS卷积神经网络由Fire块、空洞卷积网络块、像素重排块和残差连接构成。测试阶段，FirePS卷积神经网络将测试含噪语音的对数幅度谱图映射为降噪后的对数幅度谱图，结合原测试语音的相位谱，得到增强后的语音时域信号。

听觉辅助器件-201980078382.0
发明人：本多宁;村山好孝;久保聡介;关口太一 -专利权人：希雅株式会社;株式会社福力可耳
申请日： 2019-09-30 - 公布日： 2022-12-09 - 主分类号： G10L21/0224
摘要：本发明提供一种听觉辅助器件，由用户佩戴，能够抑制佩戴有听觉辅助器件的用户发出的声音。听觉辅助器件(1)中，通过用户佩戴，分开配置的一对传声器(L、R)位于头部两侧，且一对扬声器位于用户的两耳或其近旁。而且，包括噪音消除部(96)，从传声器(L、R)的至少一者的输入信号中，减去相对强调嘴指向性音响处理部(93)所处理的位于用户的嘴的声源的声音的信号。

一种自动留样取证的噪声监测方法-202211118403.7
发明人：王延敦;秦云松;宋博;王岩 -专利权人：北京中环高科环境治理有限公司
申请日： 2022-09-15 - 公布日： 2022-12-02 - 主分类号： G10L21/0224
摘要：本发明公开一种自动留样取证的噪声监测方法，涉及计算机应用与化工交叉技术领域，包括：采集声音信号，表示为时间的函数；在不同时间截取声音信号，得到多个局部声音序列，变换得到多个变换序列；计算能量谱，得到多个能量谱向量，并生成能量谱矩阵；建立神经网络模型；通过学习，得到神经网络模型的学习代价函数；迭代计算得到学习后的神经网络模型；将能量谱矩阵输入学习后的神经网络模型，得到输出值；当输出值大于预设值时，将声音信号存入数据库，作为留样取证的样本。本发明在待监测环境下设置两台同步声音采集设备，通过自动智能化处理技术分析声音信号，完成声音特征的提取和噪声的监测，能够有效识别化工生产噪声，实现噪声的自动监测。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于人工智能的一体机人机交互系统和方法在审

专利文献下载