[发明专利]一种基于单源点检测的欠定盲源语音信号分离的方法在审

申请号：	201810975185.6	申请日：	2018-08-24
公开（公告）号：	CN110858486A	公开（公告）日：	2020-03-03
发明（设计）人：	李一兵;王一凡;田园;郭小晨;吴静;叶方;孙骞;赵彤	申请（专利权）人：	深圳市白麓嵩天科技有限责任公司
主分类号：	G10L21/028	分类号：	G10L21/028;G10L21/0308;G10L21/0216
代理公司：	深圳市智科友专利商标事务所 44241	代理人：	周小年
地址：	518000 广东省深圳市罗湖区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于单源点检测的欠定盲源语音信号分离的方法，包括以下步骤：首先将线型麦克风阵列放于源信号的远场，得到多组接收信号数据；然后将接收信号数据进行时频域分析，构建时频域信号散点图；对每个点的横纵坐标作比值得到一组数据，进行聚类得到幅度的衰减参数；利用势函数聚类方法，得到势函数—衰减参数—时延参数三维散点图。利用子空间映射的方法，混合矩阵下完成源语音信号的恢复。本发明的核心内容在于利用盲源分离中的稀疏成分分析技术提出一种基于单源点检测的欠定盲源语音信号分离的方法，应用本发明可以在一定含噪环境下，对无回响时延混合模型的语音信号混叠进行有效的分离。该方法计算量较少，复杂度低，估计精度高，能达到预期目标。
搜索关键词：	一种基于源点检测欠定盲源语音信号分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市白麓嵩天科技有限责任公司，未经深圳市白麓嵩天科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810975185.6/，转载请声明来源钻瓜专利网。

同类专利

声源分离方法、装置、设备及存储介质-202310800682.3
发明人：罗艺;顾容之 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-06-30 - 公布日： 2023-10-27 - 主分类号： G10L21/028
摘要：本申请公开了一种声源分离方法、装置、设备及存储介质，属于音频分析技术领域。所述方法包括：获取待分离音频的时频特征，所述时频特征用于反映所述待分离音频在时域维度和频域维度上的特征，所述待分离音频为多个声源的混合音频；将所述时频特征在频域维度上按照K个频带进行切分，得到所述K个频带对应的K个时频子特征；将所述K个时频子特征进行特征映射，得到所述K个频带对应的序列特征，不同频带的所述序列特征中的频带特征维度均被映射至同一目标维度；根据所述K个频带对应的序列特征，通过声源分离模型确定所述多个声源中至少两个声源在所述待分离音频中分别对应的分离音频。本申请可以降低使用模型进行声源分离的成本。

一种人声消除方法、装置、设备及介质-202010875088.7
发明人：姜元恩;邢文峰 -专利权人：海信视像科技股份有限公司
申请日： 2020-08-27 - 公布日： 2023-10-27 - 主分类号： G10L21/028
摘要：本发明提供了一种人声消除方法、装置、设备及介质，由于本发明实施例中对初始时刻的第一音频数据进行自适应滤波操作，确定滤波器的第一振幅，并将第一音频数据中的左声道音频子数据和右声道音频子数据进行互相关操作，确定相似度最高的音频信号，将右声道音频子数据和左声道音频子数据中相似度最高的音频信号对齐得到第二音频数据，并对相似度最高的音频信号所在时刻的第二音频数据进行自适应滤波操作，确定滤波器的第二振幅。通过第一振幅和第二振幅分别与预设振幅阈值的差值，对对应的音频数据进行自适应滤波操作得到背景声音频，即差值不同，则进行自适应滤波操作的音频数据不同，实现了通过人声消除得到准确的背景声音频。

一种基于变分自编码器多通道声纹盲源分离方法-202310481811.7
发明人：李琪林;彭玺;彭德中;严平 -专利权人：国网四川省电力公司营销服务中心;四川大学
申请日： 2023-04-28 - 公布日： 2023-09-29 - 主分类号： G10L21/028
摘要：本发明公开了一种基于变分自编码器多通道声纹盲源分离方法，其包括以下步骤：采集电力变压器的声纹信号；通过短时傅里叶变换处理混合的声纹信号得到复谱图；将复谱图输入到构造的条件变分自编码器中；训练条件变分自编码器；将训练好的变分自编码器用于声纹盲源分离。该方法使用条件变分自动编码器来建模和估计混合源的功率谱图，通过使用带有源类标签的训练示例的谱图来训练条件变分自动编码器，使用训练的去编码器分布作为通用生成模型，该模型能够生成基于指定类索引的谱图；通过将内容空间变量和类别索引视为该生成模型的未知参数，对基础源的功率谱图以及分离矩阵进行迭代估计，具有优越的声纹盲分离性能。

一种面向用户的自定义体育赛事解说增强方法-202010284204.8
发明人：陈兴国;乔一明;刘威;朱洁;张鹏 -专利权人：南京邮电大学
申请日： 2020-04-13 - 公布日： 2023-09-22 - 主分类号： G10L21/028
摘要：本发明公开了一种面向用户的自定义体育赛事解说增强方法，对于解说视频中的人声声纹进行分离，根据用户设置对个别解说员声纹进行屏蔽，实现更好的观赛体验。在人声声纹提取过程中，通过对音频进行切分，傅里叶变换，经深度循环神经网络处理，提取出纯净的人声时间帧。在解说员身份识别过程中，首先从时间帧中通过通用背景模型，根据特定时间帧进行最大后验估计，提取出时间帧的特征向量。对时间帧的特征向量进行聚类，每一个类别即为一个解说员，每一个类别的均值，即为解说员的身份向量，以此完成解说员的识别与屏蔽功能。

用于在音频通信中将语音数据与背景数据分离的方法和装置-201580055548.9
发明人： A.奥泽罗夫;Q.K.N.董;L.谢瓦利尔 -专利权人：交互数字麦迪逊专利控股公司
申请日： 2015-10-12 - 公布日： 2023-09-19 - 主分类号： G10L21/028
摘要：提出一种用于在音频通信中将语音数据与背景数据分离的方法和装置。该方法包括：将语音模型应用到音频通信，以用于将语音数据与音频通信的背景数据分离；以及在音频通信期间根据语音数据和背景数据更新语音模型。

音频分离方法、装置、电子设备及存储介质-202310603508.X
发明人：张旭龙;王健宗;程宁;孙一夫 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-24 - 公布日： 2023-08-22 - 主分类号： G10L21/028
摘要：本发明实施例公开了一种音频分离方法、装置、电子设备及存储介质，通过对样本音频频谱信息进行编码，能够减少音频分离时的计算量，进而提高音频分离的效率；通过对样本音频特征向量进行线性调制得到线性特征向量，以及对替换瓶颈层的初始瓶颈层特征向量的线性特征向量进行解码处理，能够通过对瓶颈层中的参数进行更新，进而能够提高深度学习分割网络的鲁棒性；根据目标损失值训练深度学习分割网络，可以提升深度学习分割网络进行音频分离的准确性；在通过该深度学习分割网络对待分离音频进行音频分离时，无论待分离音频的时长有多短，以及无论何种金融业务音频，也能够达到音频分离的效果，也即能够提升对待分离音频进行音频分离的准确性。

一种基于视听语音分离的说话人视觉激活解释方法及系统-202310187677.X
发明人：胡致远;沈旭立 -专利权人：华院计算技术（上海）股份有限公司
申请日： 2023-03-01 - 公布日： 2023-08-11 - 主分类号： G10L21/028
摘要：本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统，方法包括：由说话人视频片段抽取说话人音频片段，与噪声音频片段混合得到混合语音片段；基于残差神经网络提取唇部运动特征和面部特征，基于U‑net进行音频特征提取，并对齐构成多模态深度特征；确定视听语音分离模型的模型组件和损失函数并完成训练；解码视频流信息并输入部署的视听语音分离模型，并根据输出的预测频谱图计算得分函数，根据得分函数计算视觉模态不同层的贡献度，通过热力图生成视觉模态激活图。通过本发明的技术方案，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，得到了超过目前最先进水平的分离效果，能够在更复杂条件下稳定工作。

音频分离方法、装置、电子设备及计算机可读存储介质-202010780016.4
发明人：孔秋强;宋旭晨;王雨轩 -专利权人：字节跳动有限公司
申请日： 2020-08-05 - 公布日： 2023-08-11 - 主分类号： G10L21/028
摘要：本公开提供了一种音频分离方法、装置、电子设备及计算机可读存储介质，涉及音频处理领域。该方法包括：获取待分离的音频；所述待分离的音频包含至少两种类型的音轨；将所述音频输入训练后的音频分离模型，以使得所述分离模型中的第一分支基于频谱图对所述音频进行分离，得到第一分离结果，以及使得所述分离模型中的第二分支基于时域对所述音频进行分离，得到第二分离结果，并基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨；所述目标音轨的类型为所述至少两种类型中的任一种，且与所述训练后的音频分离模型的分离类型相同；输出所述目标音轨。本公开达到了音乐源分离的最新性能。

一种基于时域声纹分离网络的变压器声纹盲分离方法-202310481828.2
发明人：李琪林;彭玺;彭德中;蔡君懿 -专利权人：国网四川省电力公司营销服务中心;四川大学
申请日： 2023-04-28 - 公布日： 2023-08-08 - 主分类号： G10L21/028
摘要：本发明公开了一种基于时域声纹分离网络的变压器声纹盲分离方法，采集变压器的混叠声纹信号；将混叠声纹信号输入时域声纹分离网络；计算分离网络输出的信号与实际的源信号之间尺度不变的信噪比；通过反向传播算法更新分离网络参数；重复直到尺度不变的信噪比或迭代次数达到预设值，则停止训练；将训练好的时域声纹分离网络用于实际变压器声纹分离。本申请使用编码器‑解码器框架直接在时域中对信号进行建模，并对非负编码器输出执行源进行分离，并将分离问题简化为在编码器输出上计算源掩码，然后由解码器合成；相比于当前最先进的因果和非因果声纹分离算法，该分离方法适用于需要低功耗、实时实现的变压器声纹分离应用。

合唱人声分离方法、计算机设备和存储介质-202310601136.7
发明人：何礼 -专利权人：腾讯音乐娱乐科技（深圳）有限公司
申请日： 2023-05-25 - 公布日： 2023-08-01 - 主分类号： G10L21/028
摘要：本申请涉及一种合唱人声分离方法、计算机设备和存储介质。所述方法包括：将合唱歌曲的人声信号与伴奏信号进行分离，得到所述合唱歌曲的合唱人声信号；将所述合唱人声信号，输入至训练完成的人声分离模型中，得到所述合唱歌曲的多个单人信号；分别将所述合唱歌曲的多个单人信号，输入至训练完成的人声增强模型中，得到所述合唱歌曲的多个目标单人信号；所述训练完成的人声增强模型通过所述训练完成的人声分离模型输出的单人信号训练得到。采用本方法能够提高合唱歌曲中人声信号的分离效果。

一种双声源的声音信号分离方法和拾音器-202010251574.1
发明人：黄海;刘佳;隆弢 -专利权人：西安声联科技有限公司
申请日： 2020-04-01 - 公布日： 2023-06-09 - 主分类号： G10L21/028
摘要：本发明实施例提供了一种双声源的声音信号分离方法和拾音器，将混合声音信号划分为语音帧，估计语音帧达麦克风阵列中不同阵元组合的时延差，然后根据确定的时延差判断语音帧的传播方向，根据传播方向实时分离出不同声源对应的声音信号并输出。通过广义互相关算法进行时延估计，不仅能够准确的估计时延，而且能够保证算法的运算量较低，使算法在实时系统中能够更准确、高效地跟踪声源方位，从而实现对第一声源和第二声源的声音信号进行自动分离。

设备唤醒方法、存储介质及电子装置-202211711795.8
发明人：郝斌 -专利权人：海尔优家智能科技（北京）有限公司;青岛海尔科技有限公司;海尔智家股份有限公司
申请日： 2022-12-29 - 公布日： 2023-06-02 - 主分类号： G10L21/028
摘要：本申请公开了一种设备唤醒方法、存储介质和电子装置，涉及智能家居/智慧家庭技术领域，该设备唤醒方法包括：确定已接收到初始音频的、至少两个待唤醒的智能设备，并获取至少两个待唤醒的智能设备中每个智能设备对初始音频的接收数据；对每个智能设备的接收数据进行声源分离处理，得到每个智能设备各自对应的每对唤醒音频数据与噪声音频数据；获取每对唤醒音频数据与噪声音频数据的音频数据和，并计算每个唤醒音频数据在各自对应的音频数据和中的比例系数；基于比例系数计算距离数值，并从至少两个待唤醒的智能设备中确定出距离数值最小的智能设备进行唤醒。本申请解决了相关技术中存在设备唤醒的准确性低下的技术问题。

基于改进自注意力机制与跨频带特征的音频音源分离方法-202010048185.9
发明人：李泽超;唐金辉;黄毅 -专利权人：南京理工大学
申请日： 2020-01-16 - 公布日： 2023-05-30 - 主分类号： G10L21/028
摘要：本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤：训练集数据准备，包括混合音频数据以及混合音频数据中待分离的目标音源音频数据；将音频数据均转换为音频的时频谱，记为全频带时频谱；构建若干个满足跨频带特征约束的划分策略；基于每个划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带；基于每个划分策略构建深度神经网络；训练深度神经网络和最小方差滤波器；利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。本发明方法具有很好的性能和进度，泛化性好，更适用于音频音源分离任务，且分离出的目标音源音频质量更好。

自动调整特定声源的方法及应用其的电子装置-202010092759.2
发明人：杜博仁;张嘉仁;曾凯盟 -专利权人：宏碁股份有限公司
申请日： 2020-02-14 - 公布日： 2023-05-26 - 主分类号： G10L21/028
摘要：一种自动调整特定声源的方法及应用其的电子装置。电子装置包括一第一声音信号辨识单元、一第一多声源判定单元、一方向性分析单元、一方向性分离单元、一第二声音信号辨识单元、一第二多声源判定单元及一声音信号调整单元。第一声音信号辨识单元用以对一原始声音频信号进行数种特定声源的一机率辨识程序。若原始声音频信号的声源数量大于或等于二，则方向性分析单元对原始声音频信号进行一方向性分析程序。方向性分离单元依据原始声音频信号的方向分析程序的结果，分离出至少一特定方向子信号。若特定方向子信号的声源数量等于一，则声音信号调整单元进行一声源调整程序。

一种基于深度神经网络的定向语音分离方法-202211622172.3
发明人：邢建川;曾凤;付鱼;陈洋;周春文;刘梓然 -专利权人：电子科技大学
申请日： 2022-12-16 - 公布日： 2023-04-28 - 主分类号： G10L21/028
摘要：本发明公开了一种基于深度神经网络的定向语音分离方法，属于语音处理技术领域。本发明方法包括：提取语音的时频谱特征：提取混合人声以及纯净人声的时频谱特征，其中，纯净人声的时频谱特征用于人声分离网络的训练；使用声纹编码器提取语音的声纹向量，以提取与纯净人声不同的参考人声的声纹向量；构建并训练人声分离网络，其中，所述人声分离网络的激活函数采用Mish函数；将时频谱和声纹向量共同输入人声分离网络，输出从混合人声中提取到的目标人声。本发明有效的提升了定向人声分离的处理性能。

一种语音处理的方法、装置、设备和存储介质-202211665100.7
发明人：杨毅 -专利权人：哲库科技（上海）有限公司
申请日： 2022-12-23 - 公布日： 2023-04-11 - 主分类号： G10L21/028
摘要：本申请实施例公开了一种语音处理的方法、装置、设备和存储介质，该方法包括：获取待处理的第一语音信号；基于目标说话人的第一声纹特征，过滤第一语音信号中除目标说话人的语音信号之外的语音信号，得到第二语音信号；基于第二语音信号对目标说话人的第一声纹特征进行更新，得到目标说话人的第二声纹特征。如此，可实现对目标说话人的声纹特征的自适应更新，以避免由于目标说话人的声音特征随时间、环境发生变化所导致的提取目标说话人的语音信号不准确的问题。

一种语音分离方法、装置及存储介质-202110945149.7
发明人：卢慧君;蔡敦波;钱岭;黄智国 -专利权人：中移(苏州)软件技术有限公司;中国移动通信集团有限公司
申请日： 2021-08-17 - 公布日： 2023-04-07 - 主分类号： G10L21/028
摘要：本申请实施例公开了一种语音分离方法、装置及存储介质，该方法将时域的混合音频数据和图像数据输入到第一神经网络中进行特征融合，输出K个第一特征图；将频域的语谱图输入到第二神经网络中进行特征分离，输出K个第二特征图；基于K个第一特征图和K个第二特征图，得到K个语谱图掩码；最后基于K个语谱图掩码和语谱图，得到分离后的K个独立音频数据。这样，在进行语音分离时，引入第一神经网络用于多感知特征提取以增强语音特征，得到K个第一特征图，引入第二神经网络对混合语音数据的语谱图进行K成分分离，得到K个第二特征图，利用第一特征图和第二特征图进行语谱图掩码预测能够提高预测准确性，从而实现混合音频数据的有效分离。

一种基于改进注意力机制的轻量化的音源分离方法-202211507544.8
发明人：苏玉萍;曹宇轩;吴晓军;张玉梅 -专利权人：陕西师范大学
申请日： 2022-11-29 - 公布日： 2023-03-14 - 主分类号： G10L21/028
摘要：本发明公开了一种基于改进注意力机制的轻量化的音源分离方法，涉及声音处理技术领域，包括以下步骤：构建用于进行音源分离的LaSHAFT网络；其中LaSHAFT网络为改进后的LaSAFT网络：将原LaSAFT网络中的门控‑点卷积全连接计算模块替换为全局池化替代全连接的GAP层，并将LaSAFT网络中的注意力模块替换为Hybrid‑Voiceformer多头频谱混合注意力模块；利用所构建的LaSHAFT网络对待分离的音频文件进行分离，得到音频的音源分离结果。本发明对原始的LASAFT网络模型进行改进，有利于在分离过程中控制参数量且泛化性更佳，提升了音源分离质量。

音频信号的分离方法、装置、设备、存储介质及程序-202110993553.1
发明人：孔秋强;刘濠赫 -专利权人：脸萌有限公司
申请日： 2021-08-27 - 公布日： 2023-03-03 - 主分类号： G10L21/028
摘要：本公开实施例提供一种音频信号的分离方法、装置、设备、存储介质及程序，该方法包括：确定待处理的混合音频信号的第一幅值信息、以及混合音频信号的第一相位信息，对所述第一幅值信息进行处理，得到混合音频信号与第一音频信号之间的幅值差异信息和相位差异信息，第一音频信号为混合音频信号中第一音源对应的纯净音频信号，根据第一幅值信息、第一相位信息、幅值差异信息和相位差异信息，确定第一音频信号。通过上述过程中，能够提升音频分离效果。

一种实现车内话者分离的方法及系统-202110814169.0
发明人：唐涛;田发景 -专利权人：上海擎感智能科技有限公司
申请日： 2021-07-19 - 公布日： 2023-01-24 - 主分类号： G10L21/028
摘要：本发明提供了一种实现车内话者分离的方法及系统。上述方法包括：响应于多个外置的智能终端均分别与车机终端建立通信通道，各个智能终端基于各自的通信通道输出各自在车厢内部的位置信息至上述车机终端；以及各个智能终端将各自采集的车内录音输出至上述车机终端，以使上述车机终端至少基于各个智能终端的位置信息对同一时段的车内录音进行话者分离。根据本发明所提供的方法及系统，能够通过多个外置的智能终端及其在车厢内的位置信息来构成麦克风矩阵，从而为实现车内话者分离提供了可能。本发明所提供的方法及系统对车辆的原始硬件要求不高，成本低廉，应用场景更为广泛。

音频处理方法、装置、系统、终端及计算机可读存储介质-202110672034.5
发明人：吴方瑶;孙南勇 -专利权人：华为技术有限公司
申请日： 2021-06-17 - 公布日： 2022-12-20 - 主分类号： G10L21/028
摘要：本申请公开了一种音频处理方法、装置、系统、终端及计算机可读存储介质，属于计算机技术领域。本申请通过确定能够指示呼吸的气流速度随时间的变化情况的气流特征，进而在第一音频信号的气流特征指示第一音频信号不包括鼻子呼吸声时，以气流特征作为分离目标用户的音频信号的依据，从第一音频信号中分离出目标用户的音频信号，实现对第一音频信号的降噪，而信噪比的高低不会对气流特征造成影响，从而能够保证低信噪比情况下的降噪效果。

一种可识别身份的车载智能终端语音控制系统-202210930418.7
发明人：胡国生;赵本杰;李艳 -专利权人：安徽锐威电子科技有限公司
申请日： 2022-08-03 - 公布日： 2022-11-04 - 主分类号： G10L21/028
摘要：本发明涉及语音控制技术领域，具体地说，涉及一种可识别身份的车载智能终端语音控制系统。其包括语音接收端口、杂音识别处理单元以及对比分析处理单元。本发明中，对比分析处理单元首先结合车主平时的语音音质判断杂音中是否存在与车主平时的语音音质相近的语音指令，剔除其中差别较大的语音指令，同时结合口头语存储信息判断杂音中与车主平时的语音音质相近的语音指令中是否出现该类口头语，进一步剔除无关指令，对比完成后，通过语音指令提取单元对其中的有效指令进行提取，并根据实际指令进行实施，能够在车内出现杂音的情况下，准确分析出那条语音指令为车主发出的指令，提高语音指令响应效率，避免车主重复语音指令。

模型训练方法、语音分离方法、装置及电子设备-202011618335.1
发明人：陈孝良;冯大航;赵力;常乐 -专利权人：北京声智科技有限公司
申请日： 2020-12-31 - 公布日： 2022-11-01 - 主分类号： G10L21/028
摘要：本公开提供一种模型训练方法、语音分离方法、装置及电子设备，所述方法包括：将声音信号的语音特征分别输入预先训练的N个第一神经网络模型，得到N个输出结果，所述N个输出结果为从所述声音信号中分离出的N个拾音区域对应的说话人语音的语音特征，N为大于1的整数；将所述声音信号的语音特征输入第二神经网络模型，对所述第二神经网络模型进行训练，其中，用于训练所述第二神经网络模型的损失函数基于所述N个输出结果确定。本公开实施例中，采用训练完成的第二神经网络模型进行语音分离，能够提高语音分离的准确性。

一种定向拾音方法、装置及电子设备-201710592299.8
发明人：陈展;杨茜;任烨 -专利权人：杭州海康威视数字技术股份有限公司
申请日： 2017-07-19 - 公布日： 2022-11-01 - 主分类号： G10L21/028
摘要：本发明实施例提供了一种定向拾音方法、装置及电子设备，方法为：对两个麦克风采集的两路初始语音信号分别进行分帧处理；针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号；再计算该帧的初始分离矩阵；基于预设的拾音方向相对于两个麦克风的角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵；根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，目标语音信号为定向角度上的语音信号；分别对目标语音信号在每一帧对应的频域信号进行时域转换，得到目标语音信号。应用本发明实施例的方案可以减小定向拾音设备的尺寸。

一种音视频语音分离方法和系统-202210793594.0
发明人：吴志勇;蔡新宇 -专利权人：清华大学深圳国际研究生院
申请日： 2022-07-05 - 公布日： 2022-10-11 - 主分类号： G10L21/028
摘要：本发明公开了一种音视频语音分离方法，包括如下步骤：从原始的音频与视频输入中提取相应的深度学习特征；融合利用两个模态的信息进行音频掩码预测；将预测得到的深度学习特征转换回音频信号。本发明使用跨模态注意力与自注意力相结合的建模网络进行多模态特征融合与建模，使模型具有更低的计算复杂度与更高的分离性能；在分离器中使用两个网络分别在视频时间尺度和音频时间尺度进行建模，使得分离器既能够关注到长距离特征间的关系，又能够对短时间内的相邻特征进行建模，从而获得分离性能的提升；使用二维位置编码技术代替传统的一维位置编码技术，使建模网络能够关注到不同层级的位置信息，进一步提升了方法的分离性能。

语音分离模型的训练方法、语音分离方法及装置-202010003201.2
发明人：王珺;林永业 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-01-02 - 公布日： 2022-09-27 - 主分类号： G10L21/028
摘要：本申请公开了一种语音分离模型的训练方法、语音分离方法、装置、计算机设备及存储介质，属于语音技术领域。通过本申请实施例提供的技术方案，在训练过程中，能够基于学生模型的分离结果的准确性、教师模型和学生模型分离得到的结果之间的一致性，来使得教师模型能够对学生模型的训练起到一种平滑的作用，从而提升训练得到的语音分离模型的分离准确性的同时，还能够保持分离的稳定性，大大提高了训练的语音分离模型的分离能力。

一种音频数据处理方法、设备以及计算机可读存储介质-202010975371.7
发明人：王珺 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-09-16 - 公布日： 2022-09-20 - 主分类号： G10L21/028
摘要：本申请实施例公开一种音频数据处理方法、设备以及计算机可读存储介质，本方法可以应用到包括智能语音等人工智能项目和产品中，其中，方法包括：获取声源混合音频数据，基于通用分离组件对声源混合音频数据进行声源分离预处理，得到通用分离音频特征；将通用分离音频特征分别输入至第一注意力网络层以及第二注意力网络层；在第一注意力网络层中，根据目标分离音频特征以及通用分离音频特征，生成上下文目标音频特征，将上下文目标音频特征输入至第二注意力网络层；在第二注意力网络层中，根据上下文目标音频特征以及通用分离音频特征，生成分离优化音频特征；根据分离优化音频特征，生成重构声源音频。采用本申请，可以提高重构声源音频的准确率。

一种车载智能麦克风多源语音拾取分离系统及方法-202210391054.X
发明人：白云飞;窦健强;季晟 -专利权人：兴科迪科技（泰州）有限公司
申请日： 2022-04-14 - 公布日： 2022-08-09 - 主分类号： G10L21/028
摘要：本发明属于汽车音响娱乐系统，具体涉及一种车载智能麦克风多源语音拾取分离系统及方法。本发明车载智能麦克风系统在硬件上集成了语音处理器芯片、数字麦克风阵列、USB接口，数字麦克风阵列用来拾取不同声源的语音信号，将语音信号传人语音处理器，经语音处理器分离出多个音频文件,通过USB接口传给电脑。本发明实现了高噪音环境下语音信号的拾取，分离。可以将多个声源输入的语音信号分离为几个单独的音频文件并标记对应的语音输入位置，为后端的语音处理提供了便利。

一种基于多音区的语音检测方法、相关装置及存储介质-202010732649.8
发明人：郑脊萌;陈联武;黎韦伟;段志毅;于蒙;苏丹;姜开宇 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-07-27 - 公布日： 2022-07-26 - 主分类号： G10L21/028
摘要：本申请公开了一种基于多音区的语音检测方法，该方法应用于人工智能领域，本申请提供的语音检测方法包括：获取N个音区内每个音区所对应的音区信息；根据每个音区所对应的音区信息，生成每个音区所对应的控制信号；采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；根据每个音区所对应的语音输出信号，生成语音检测结果。本申请还公开了一种语音检测装置以及存储介质。本申请可基于多个音区并行处理来自不同方向的语音信号，在多声源的场景下，通过控制信号对不同方向上的语音信号进行保留或者抑制，从而能够实时分离和增强每个用户的语音，由此提升语音检测的准确度。

基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其存储介质-202210155686.6
发明人：沈一峰;魏宇梅;盛钦润;李华芳 -专利权人：上海市精神卫生中心（上海市心理咨询培训中心）
申请日： 2022-02-21 - 公布日： 2022-05-27 - 主分类号： G10L21/028
摘要：本发明涉及一种基于精神卫生访谈信息实现医患声纹分离处理的方法，包括以下步骤：上传医患访谈音频文件；根据抑郁症访谈的声纹分离技术分离音频文件中的不同角色；根据不同角色对录音进行转写，以文本形式展示医患的对话。采用了本发明的基于精神卫生访谈信息实现医患声纹分离处理的方法、装置、处理器及其计算机可读存储介质，改善声纹识别系统的抗干扰能力，快速提取准确的、稳定的、唯一的表征说话人声音特征的信息，将多种建模方法融合以及研究新的建模方法、提出了更可靠的判决策略。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于单源点检测的欠定盲源语音信号分离的方法在审

专利文献下载