[发明专利]基于传声器阵列确定声源信息的方法、装置及电子设备有效

申请号：	201910503237.4	申请日：	2019-06-11
公开（公告）号：	CN110148422B	公开（公告）日：	2021-04-16
发明（设计）人：	朱长宝;李锦超	申请（专利权）人：	南京地平线集成电路有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308;G10L25/51;G10L25/30;G10L25/18
代理公司：	北京思源智汇知识产权代理有限公司 11657	代理人：	毛丽琴
地址：	210000 江苏省南京市栖霞区***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本公开实施例公开了一种基于传声器阵列确定声源信息的方法，其中，方法包括：确定传声器阵列采集的多路音频信号；确定所述多路音频信号的相似性度量信息；确定所述多路音频信号的相关性度量信息；基于所述相似性度量信息和所述相关性度量信息，确定声源信息。还公开了一种基于传声器阵列确定声源信息的装置，其中，装置包括：音频信号确定模块、相似性度量信息确定模块、相关性度量信息确定模块和声源信息确定模块。本公开实施例可以通过确定并基于传声器阵列采集的多路音频信号的相似性度量信息和相关性度量信息，确定声源信息，可以通过传声器阵列得到声源信息，方便后续进行行声源数量估计，可以保证声源数量估计的准确性。
搜索关键词：	基于传声器阵列确定声源信息方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于传声器阵列确定声源信息的方法，包括：确定传声器阵列采集的多路音频信号；确定所述多路音频信号的相似性度量信息；确定所述多路音频信号的相关性度量信息；基于所述相似性度量信息和所述相关性度量信息，确定声源信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京地平线集成电路有限公司，未经南京地平线集成电路有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910503237.4/，转载请声明来源钻瓜专利网。

上一篇：一种残余回声检测方法、终端和装置
下一篇：语音处理方法、装置、电子设备及存储介质

同类专利

声源分离系统-201780094920.6
发明人：大卫·贝茨 -专利权人：音智有限公司
申请日： 2017-07-19 - 公布日： 2023-10-27 - 主分类号： G10L21/0272
摘要：本申请描述一种声源分离的方法。该方法包括：输入来自多个声学传感器的声学数据，该声学数据包括由多个声源组合生成的声学信号；将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及生成多通道滤波器，以通过作用于所述时频数据帧而从所述声源中分离信号，其中，所述生成包括：确定一组解混矩阵(Wf)，该组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(

声源定位方法、装置、存储介质及电子设备-202311181239.9
发明人：鲁勇;李逸洋;张新科;崔潇潇 -专利权人：北京探境科技有限公司
申请日： 2023-09-14 - 公布日： 2023-10-24 - 主分类号： G10L21/0272
摘要：本申请公开了一种声源定位方法、装置、存储介质及电子设备，其中，该声源定位方法采用获取当前音频帧，并将当前音频帧转换为对应的当前频域信号；对当前频域信号进行盲源分离，得到各通道的当前分离信号；分别对各通道的当前分离信号进行预处理，以确定目标语音通道；获取目标语音通道中各频点的语音方向估计值；对各频点的语音方向估计值进行综合处理，生成当前音频帧中目标语音的方向估计值。本方案可以提高对语音的声源定位准确性。

一种空间引导的确定性几何约束独立向量分析方法和装置-202311077238.X
发明人：骆忠强;郭瑞明 -专利权人：四川轻化工大学
申请日： 2023-08-25 - 公布日： 2023-10-24 - 主分类号： G10L21/0272
摘要：本发明公开一种空间引导的确定性几何约束独立向量分析方法和装置，包括：步骤S1、获取语音信号数据；步骤S2、根据语音信号数据和房间脉冲响应，得到卷积混合信号；步骤S3、将卷积混合信号进行短时傅里叶变换到频域乘积形式；步骤S4、采用分离模型对频域乘积形式的卷积混合信号进行解混分离出源信号；步骤S5、根据分离信号与混响信号，评判分离混合语音信号性能。采用本发明的技术方案，提高算法分离语音信号的性能，避免算法分离造成的尺度模糊问题，降低计算成本。

音频数据的处理方法、电子设备及介质-202010131305.1
发明人：郑国炳 -专利权人：维沃移动通信有限公司
申请日： 2020-02-28 - 公布日： 2023-10-24 - 主分类号： G10L21/0272
摘要：本发明实施例公开了一种音频数据的处理方法、电子设备及介质。其中，一种音频数据的处理包括：采集预设范围内的声音信号，得到第一音频数据；从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；基于预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。利用本发明实施例，能够按照用户的个性化需求，对音频数据进行处理，得到满足用户需求的音频数据，提高用户的使用体验。

通话方法和装置-202010811883.X
发明人：梁俊斌 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-08-13 - 公布日： 2023-10-24 - 主分类号： G10L21/0272
摘要：本申请提供了一种通话方法和装置。该方法包括：获取用于传输通话数据的多个通道中每个通道的选通预测状态，并获取与每个通道对应的第一编码参数；基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数，得到与每个通道对应的第二编码参数；将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端，以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流；获取与多个通道对应的多个发送客户端编码得到的多个语音码流；在多个语音码流中选择选通码流，将选通码流使用人工智能领域中的语音合成技术合成，基于合成后的选通码流进行通话，相比于直接基于多个语音码流进行通话，降低了接收客户端的用户无法听清的风险。

一种基于最小体积约束的多通道盲声源分离方法-202110427529.1
发明人：张晓雷;王建宇;王杰 -专利权人：西北工业大学;西北工业大学深圳研究院
申请日： 2021-04-21 - 公布日： 2023-10-17 - 主分类号： G10L21/0272
摘要：本发明公开了一种基于最小体积约束的多通道盲声源分离方法，首先将接受到的多通道混合信号通过解混合矩阵，得到声源的近似估计，再通过短时傅里叶变换得到估计的每个通道时频图矩阵，然后通过最小体积约束的独立低秩矩阵分析，最终更新解混合矩阵。本发明显著提高了混响环境中估计的声源信号失真比，保证了混和声源信号在重构过程中的鲁棒性和可识别性。

一种针对大功率目标信号的语音提取方法-202010882977.6
发明人：廖乐乐;卢晶 -专利权人：南京大学
申请日： 2020-08-28 - 公布日： 2023-10-13 - 主分类号： G10L21/0272
摘要：本发明公开了一种针对大功率目标信号的语音提取方法。该方法的步骤包括：步骤1，获取待处理混合语音的时频域信号；步骤2，初始化各频带的分离向量；将混合语音时频域信号进行白化预处理，然后对所有频带的分离向量进行联合优化，收敛后对分离向量进行标准化，得到最终的目标语音分离向量并由此估计出目标语音的时频域信号；步骤3，将估计出的目标语音时频域信号通过短时傅里叶逆变换，得到时域的目标语音信号。本发明的方法可以针对多个传声器实现多通道环境下的目标语音提取，有利于节省计算量，并保证目标语音提取的准确性。

语音分离方法、装置、计算机设备及存储介质-202310761319.5
发明人：吕惟宁;李昊;方帅;戴桢锦 -专利权人：人保信息科技有限公司
申请日： 2023-06-26 - 公布日： 2023-10-10 - 主分类号： G10L21/0272
摘要：本申请关于一种语音分离方法、装置、设备及存储介质，涉及通信技术领域。该方法包括：获取原始音频，该原始音频中包括至少两个说话人的语音信息；对原始音频进行语音检测，获得原始音频中的语音类片段；对语音类片段进行声纹识别和语音分割，获得原始音频中的至少两个语音片段；对至少两个语音片段进行聚类处理，获得属于各个说话人的语音片段；通过上述方法，可以在未知说话人数量的情况下，得到属于各个说话人的语音片段，从而达到较好的语音分离效果。

一种指向信息引导的实时语音分离方法和装置-202110963498.1
发明人：何平;蒋升 -专利权人：随锐科技集团股份有限公司
申请日： 2021-08-20 - 公布日： 2023-10-03 - 主分类号： G10L21/0272
摘要：本发明公开了一种指向信息引导的实时语音分离方法和装置，属于信息处理的领域，该方法包括以下步骤：S1：对每个麦克风的时域信号进行导向矢量与指向滤波器初始化；S2：对初始化后的信号进行时频分解，完成从时域信号到时频域信号的变换；S3：对时频域信号进行分离滤波器计算，获取用于分离目标语音与剩余信号的滤波器；S4：根据获取的滤波器，得到目标语音的时频域信号，进而得到目标语音时域信号。本发明基于超指向滤波器构建实时IVA的初始估计，并且修正IVA的优化函数，保证分离算法可以快速收敛，并且准确提取目标语音信号。

一种基于语音信号分离的独立向量分析算法-202310234790.9
发明人：骆忠强;郭瑞明;蓝婕;漆琪 -专利权人：四川轻化工大学
申请日： 2023-03-10 - 公布日： 2023-09-29 - 主分类号： G10L21/0272
摘要：本发明提出了一种基于语音信号分离的独立向量分析算法，涉及语音信号处理技术领域，包括：获取CNU Arctic语音信号库中的语音信号进行信号预处理得到语音信号数据集；构建信号分离场景，并将语音信号数据集输入信号分离场景中得到卷积混合信号；将卷积混合信号进行短时傅里叶变换到频域得到混合矩阵；基于混合矩阵构建分离模型并输出解混矩阵；基于解混矩阵观测解混后的混合语音信号的频谱图得到分离信号；对分离信号进行测量和分析得到语音信号分离的分析结果；本发明通过使用扩展的IPA方法联合执行IP2与ISS2进行更新，在每一次迭代中更新分离矩阵的两行与两列，显著提高了分离效率和对分离矩阵的更新速度。

语音分离方法、系统、装置和存储介质-202110840534.5
发明人：刘博卿;王健宗;张之勇 -专利权人：平安科技（深圳）有限公司
申请日： 2021-07-24 - 公布日： 2023-09-22 - 主分类号： G10L21/0272
摘要：本发明公开了一种语音分离方法、系统、装置和存储介质，语音分离方法包括对语音信号进行分割，得到多个语音片段，将语音片段映射到时域特征空间，得到时域向量；对时域向量迭代进行多轮识别处理，直至执行识别处理所得的置信度小于阈值后停止执行识别处理，获取目标说话人的语音特征向量，根据时域向量、目标说话人的语音特征向量以及各轮识别处理中所识别到的说话人的语音特征向量，确定目标说话人对应的语音活跃值等步骤。本发明语音分离方法所获得的语音活跃值可以表示目标说话人在语音信号中的某个时刻是否说了话，从而容易清晰地区分说话人的说话顺序，改善了顺序模糊的问题。本发明可广泛应用于语音处理技术领域。

语音信号分割模型的训练方法、装置和计算机设备-202010011573.X
发明人：马坤;刘微微;赵之砚 -专利权人：平安科技（深圳）有限公司
申请日： 2020-01-06 - 公布日： 2023-09-22 - 主分类号： G10L21/0272
摘要：本申请揭示了一种语音信号分割模型的训练方法、装置，声音信号的处理方法和装置，以及计算机设备和存储介质，其中训练方法将各语音信号样本的第一梅尔频谱图进行上采样和下采样处理，得到多张不同级别的衍生梅尔频谱图，然后进行数据标注，得到具有多个梅尔频谱图的训练用的样本集，利用样本集中的样本对预设的深度神经网络模型进行训练，得到语音信号分割模型，利用该语音信号分割模型即可以将待处理的语音信号中的人声和背景音准确的分离。即，进行不同细节级别的梅尔频谱图生成及数据的标注，基于图像语义分割的深度神经网络模型训练，从而可以对各类场景的背景噪声进行有效分离，提取出更纯净的人声信号，进而提高声纹识别的准确率和鲁棒性。

一种基于音源分离的歌声优化方法、装置、设备及介质-202310722902.5
发明人：张旭龙;王健宗;程宁;茹港徽 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-09-19 - 主分类号： G10L21/0272
摘要：本发明涉及人工智能技术领域，尤其涉及一种基于音源分离的歌声优化方法、装置、设备及介质。上述方法应用于医疗领域，提取原始歌声语音中的人声音频中表征音高的音高曲线，情感特征与音色特征，对音高曲线进行音高修正，对情感特征进行优化处理，融合优化后的情感特征和音色特征，得到融合特征，使用修正后的音高曲线修正融合特征，对修正后的融合特征进行声码转换，将转换后的音频与伴奏音频结合，本发明中，分别提取人声音频中的音高曲线，情感特征以及音色特征，进行修正与优化，提高了歌声优化的合理性，对音高特征进行修正，对情感特征进行优化，提高了歌声的优化程度，所以使用本发明中的歌声优化方法可以提高歌声优化的优化效果。

一种输电线路可听噪声提取方法及系统-202310777841.2
发明人：谢连科;崔相宇;石鑫;张用;冯迎春;张永;尹建光;臧玉魏;李乐丰;侯肖邦;张国英;巩泉泉;王坤;窦丹丹;魏清泉 -专利权人：国网山东省电力公司电力科学研究院
申请日： 2023-06-28 - 公布日： 2023-09-19 - 主分类号： G10L21/0272
摘要：本发明公开的一种输电线路可听噪声提取方法及系统，包括：获取输电线路声音信号；对获取的输电线路声音信号进行变分模态分解，获得多个模态分量；其中，以变分模态分解获得的结果最优为目标，采用多元宇宙优化算法确定变分模态分解中的模态分解层数和惩罚因子的最优值，通过模态分解层数和惩罚因子的最优值对输电线路声音信号进行变分模态分解；从多个模态分量中提取可听噪声信号；将可听噪声信号进行重构，获得输电线路可听噪声。实现了对输电线路可听噪声的准确提取。

人声伴奏分离方法、网络训练方法、设备及存储介质-202310575515.3
发明人：刘百云 -专利权人：阿里巴巴（中国）有限公司
申请日： 2023-05-19 - 公布日： 2023-09-19 - 主分类号： G10L21/0272
摘要：本申请实施例提供一种人声伴奏分离方法、网络训练方法、设备及存储介质。其中，方法包括如下的步骤：确定待分离的混合音频；所述混合音频由伴奏和人声混合而成；针对所述混合音频，利用第一生成对抗网络中的生成器，生成所述伴奏对应的目标音频；所述第一生成对抗网络是根据所述第一生成对抗网络对应的训练样本进行对抗训练获得的；针对所述混合音频，利用第二生成对抗网络中的生成器，生成所述人声对应的目标音频；所述第二生成对抗网络是根据所述第二生成对抗网络对应的训练样本进行对抗训练获得的。本申请实施例提供的资源处理方法能够提高最终分离出的人声和伴奏的音频质量。

用于人机交互时分离音频数据的方法、系统及可存储介质-202310637854.X
发明人：罗川;朱亮;蔡龙军 -专利权人：北京智精灵科技有限公司
申请日： 2023-05-31 - 公布日： 2023-09-15 - 主分类号： G10L21/0272
摘要：本发明公开了一种用于人机交互时分离音频数据的方法、系统及可存储介质。该方法包括如下步骤：获取用户进行人机交互的视频数据和音频数据；基于视频数据和音频数据，获取同一时刻开始且连续的图像序列和音频序列；基于图像序列，获取用户的唇部信息；基于用户的唇部信息，计算用户的唇部开合程度，以形成唇部波动序列；基于判断唇部波动序列的波动幅度，判断唇部波动序列的稳定状态；在同一时间坐标轴下，将唇部波动序列与音频序列对齐，以通过唇部波动序列的稳定状态标记音频序列的起始点和结束点；在音频序列中，截取起始点与结束点之间的音频流作为用户本次人机交互的有效音频数据。

语音分离方法、模型训练方法及电子设备-202010387355.6
发明人：艾文;冯大航;陈孝良 -专利权人：北京声智科技有限公司
申请日： 2020-05-09 - 公布日： 2023-09-15 - 主分类号： G10L21/0272
摘要：本发明提供一种语音分离方法、模型训练方法及电子设备，所述语音分离方法包括：获取待处理语音的语音特征，所述待处理语音中包括至少两个声源的语音信号，所述语音特征至少包括相位特征；将所述待处理语音的语音特征输入预先训练的语音分离网络模型，以对所述待处理语音进行语音分离，得到语音分离结果。本发明实施例能够提高语音分离的效果。

一种基于注意力机制的单通道时域鸟鸣声分离方法-202110116884.7
发明人：张承云;凌嘉乐;陈庆春;肖波;吴科毅;余上 -专利权人：广州大学;广州灵感生态科技有限公司
申请日： 2021-01-28 - 公布日： 2023-09-15 - 主分类号： G10L21/0272
摘要：本发明公开了一种基于注意力机制的单通道时域鸟鸣声分离方法，包括：S1，在野外采集待分离的混叠鸟鸣声信号，并进行预处理；S2，将预处理后的混叠鸟鸣声信号输入到预先建立并训练完毕的基于注意力机制的时域单通道鸟鸣声分离模型，时域单通道鸟鸣声分离模型输出分离后的鸟鸣声音频。本发明构建并训练了基于注意力机制的单通道鸟鸣声分离模型，使用网络估计的源音频与干净源音频的尺度不变的信噪比和均方误差作为联合训练目标，采用句子级的置换不变训练方法进行训练，从而使得单通道鸟鸣声分离和后续的鸟鸣声识别得到很好的结果。

用于语音降噪识别的方法及装置、制冷设备、存储介质-202310586386.8
发明人：赵弇锋;曾谁飞;孔令磊;张景瑞;刘卫强;李敏 -专利权人：青岛海尔电冰箱有限公司;青岛海尔智能技术研发有限公司;海尔智家股份有限公司
申请日： 2023-05-22 - 公布日： 2023-09-12 - 主分类号： G10L21/0272
摘要：本申请涉及语音降噪技术领域，公开一种用于语音降噪识别的方法，包括：根据多模态数据，获得语音编码数据；根据语音编码数据，获得语音信号；根据语音编码数据，获得噪音信号；利用第一深度神经网络对语音信号以及噪音信号进行数据融合，获得语音融合信号。本申请能够提升语音降噪的有效性。本申请还公开一种用于语音降噪识别的装置及制冷设备、存储介质。

音频信号处理方法、装置、设备及存储介质-202010092701.8
发明人：张东魁;陈孝良;冯大航;常乐 -专利权人：北京声智科技有限公司
申请日： 2020-02-14 - 公布日： 2023-09-12 - 主分类号： G10L21/0272
摘要：本公开揭示了一种音频信号处理方法、装置、设备及存储介质，属于智能家居技术领域。所述方法包括：获取第一声卡输出的多通道麦克风信号；将多通道麦克风信号拆分成n个单通道麦克风信号；获取第二声卡输出的回采信号；将n个单通道麦克风信号与回采信号进行同步；输出同步后的n个单通道麦克风信号与回采信号。通过上述方法，使得语音交互设备能够获取到完整且同步的音频信号，从而提高了后续音频处理的准确性，进而提高录音效果。

一种针对位置靠近声源的语音信号分离方法-202111125927.4
发明人：廖乐乐;卢晶;陈锴 -专利权人：南京大学
申请日： 2021-09-26 - 公布日： 2023-09-12 - 主分类号： G10L21/0272
摘要：本发明公开了一种针对位置靠近声源的语音信号分离方法。该方法的步骤包括：步骤1，获取待处理的混合语音时频域信号；步骤2，初始化各频带的分离矩阵；步骤3，对所有频带的分离矩阵进行联合优化；步骤4，对所述分离矩阵进行幅度规整；步骤5，估计出分离后的时频域语音信号；步骤6，由分离后的时频域语音信号恢复出时域语音信号。本发明的方法可以在声源位置靠近的不利条件下，帮助分离算法获得更好的语音信号分离效果。

一种多人语音分离方法及语音分离模型的训练方法-202110917217.9
发明人：姜彦吉;邱友利;张胜;彭博;郑四发 -专利权人：清华大学苏州汽车研究院（相城）;华研慧声（苏州）电子科技有限公司
申请日： 2021-08-11 - 公布日： 2023-09-08 - 主分类号： G10L21/0272
摘要：本发明公开了一种多人语音分离方法及语音分离模型的训练方法，分离方法包括以下步骤：将混合语音数据输入编码器处理以输出三维的特征张量；对特征张量进行组归一化处理、卷积操作和分段处理，将其结果输入到自注意力块中处理，以对其进行分离函数映射，再经过第一激活函数处理、卷积操作后进行重叠操作，对其结果进行卷积操作后分别经过第二激活函数和第三激活函数的处理，以得到两个特征张量，作乘积运算后进行卷积和第四激活函数处理，并与编码器的输出进行乘积操作，以分离出不同说话人的特征数据。本发明提供的多人语音分离方法及语音分离模型的训练方法不依赖时序关系，能够很容易地进行并行计算，提升模型的训练效率。

语音分离方法、语音分离模型训练方法和计算机可读介质-201811276692.7
发明人：石自强;林慧镔;刘柳;刘汝杰 -专利权人：富士通株式会社
申请日： 2018-10-30 - 公布日： 2023-09-08 - 主分类号： G10L21/0272
摘要：本发明涉及一种语音分离方法，包括：使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算；对经第一卷积运算的数据执行降采样；使用激活函数处理经降采样后的数据；对经激活函数处理后的数据进行第二卷积运算；通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系；根据对应关系提取与讲话人对应的数据；使用全连接层处理所提取的数据；对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

一种语音话者分离方法和装置-202010131005.3
发明人：汪法兵;李健;武卫东 -专利权人：北京捷通华声科技股份有限公司
申请日： 2020-02-28 - 公布日： 2023-08-29 - 主分类号： G10L21/0272
摘要：本发明提供了一种语音话者分离方法和装置，涉及语音识别技术领域。本发明实施例中，在对语音片段聚类之前，通过预先设置的预设噪音过滤参数对语音片段进行过滤，由于瞬态噪声与话者语音之间有着明显的不同，因此，可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤，保证第一语音集合中大部分为不同话者的语音片段，从而提升了后续第一语音特征提取以及语音片段聚类的准确性，正确分离不同话者语音，提升了语音话者分离技术的鲁棒性。

声源分离方法及装置、神经网络的模型训练方法及装置-202010136342.1
发明人：孔秋强;王雨轩 -专利权人：字节跳动有限公司
申请日： 2020-03-02 - 公布日： 2023-08-29 - 主分类号： G10L21/0272
摘要：一种声源分离方法、神经网络的模型训练方法、声源分离装置、神经网络的模型训练装置和存储介质。声源分离方法包括：获取混合音频；确定与混合音频对应的声源标签组；根据声源标签组，确定条件向量组；将条件向量组和混合音频输入至第一神经网络进行声源分离处理以得到目标声源组，其中，目标声源组中的目标声源与条件向量组的条件向量一一对应。

混叠信号识别方法、计算机设备和存储介质-202310648828.7
发明人：马钰;王沙飞;房珊瑶;杨健;刘杰;朱宇轩 -专利权人：中国人民解放军军事科学院系统工程研究院
申请日： 2023-06-02 - 公布日： 2023-08-22 - 主分类号： G10L21/0272
摘要：本发明公开了一种混叠信号识别方法、计算机设备和存储介质，将一个带有标签的训练样本内部数据块间的映射关系作为特征，即内隐映射关系特征，这种特征具有客观物理意义，具有可解释性；在训练阶段，可使用人工神经网络来拟合内隐映射关系；在识别阶段，通过检测待识别混叠信号内部数据块间的映射关系，来判断是否包含特定信号成分。在单传感器接收信号且使用无混叠信号作为训练数据的情况下，本方法可以准确识别混叠信号中包含的每一个已知信号成分；需要特别指出的是，在待识别混叠信号包含训练样本中没有的未知信号成分时，本方法仍然能够准确识别混叠信号中包含的每一个已知信号成分。

一种音频分离和话术违规提醒方法、装置及计算机设备-202310744803.7
发明人：高倩 -专利权人：中信银行股份有限公司
申请日： 2023-06-21 - 公布日： 2023-08-22 - 主分类号： G10L21/0272
摘要：本说明书涉及人工智能技术领域，尤其涉及一种音频分离和话术违规提醒方法、装置及计算机设备。其中音频分离方法包括针对待分离音频进行语音分割，得到多个音频片段；针对每个音频片段进行特征提取，得到与音频片段对应的音频特征向量；利用训练后的讲话人预测模型针对音频特征向量进行处理，确定与每个音频片段对应的预测讲话人标识；利用训练后的音频聚类模型针对与目标预测讲话人标识对应的音频特征向量处理，得到与每个音频特征向量对应的目标讲话人标识；以及将与相同的目标讲话人标识对应的音频片段合并，得到与每个目标讲话人标识对应的目标音频。利用本说明书实施例，实现了针对预测讲话人标识的修正，提高了音频分离的准确率。

基于对话录音的话文本数据集构建方法-202310300523.7
发明人：王延松;刘弘暄;张磊;王蒙;芮阳阳 -专利权人：奇瑞徽银汽车金融股份有限公司
申请日： 2023-03-23 - 公布日： 2023-08-22 - 主分类号： G10L21/0272
摘要：本发明公开一种基于对话录音的话文本数据集构建方法，包括如下步骤：S1、获取对话录音集合，依次从对话录音集合中取出待处理对话录音；S2、从待处理对话录音中提取对话人特征向量集合与对话人数量；S3、对有效对话录音进行分离，形成单人录音，放入单人录音集合；S4、将单人录音转换为录音文本，形成录音文本集合。在不知晓对话录音中对话人数量且不进行聚类的情况下，同时获得高质量的对话人特征向量集合与更准确的对话人数量，据此去除对话人数量超过最大对话人数量的低质量录音样本，并对存在大量重叠不同对话人的语音进行分离，以在建立数据集时减少噪声，提高人工效率，并提高对话文本数据集的质量。

语音分离方法、装置、电子设备和存储介质-202010220472.3
发明人：杨帆;方磊;方四安 -专利权人：合肥讯飞数码科技有限公司
申请日： 2020-03-25 - 公布日： 2023-08-22 - 主分类号： G10L21/0272
摘要：本发明实施例提供一种语音分离方法、装置、电子设备和存储介质，其中方法包括：确定待分离的语音信号；将语音信号输入语音分离模型，得到语音分离模型输出的语音分离结果；语音分离模型是基于样本语音信号及其对应的样本语音分离结果训练得到的；其中，语音分离模型用于对语音信号的时域语音特征进行多级膨胀卷积，得到对应于不同发音源的掩码矩阵，并基于时域语音特征和掩码矩阵实现语音分离。本发明实施例提供的方法、装置、电子设备和存储介质，时域上进行语音分离，避免了多发音源重叠的频域信号相互抵消导致语音分离结果欠佳的问题；此外，多级膨胀卷积能够实现感受野的扩展，解决梯度消失或梯度爆炸的问题，提升语音分离的准确性。

一种基于深度学习的单通道语音分离的方法-202310620353.0
发明人：张宏伟;刘润玲 -专利权人：哈尔滨工业大学（深圳）（哈尔滨工业大学深圳科技创新研究院）
申请日： 2023-05-29 - 公布日： 2023-08-18 - 主分类号： G10L21/0272
摘要：本发明提供一种基于深度学习的单通道语音分离的方法，包括以下步骤：步骤1，编码阶段：接收单个麦克风采集的混合语音信号，并将所接收的混合语音信号的时域波形划分为多个短段，再将多个短段转换为中间特征空间中对应的高维特征表示输出到下一步骤；步骤2，分离阶段：接收步骤1的高维特征表示并输出每个源信号对应的掩蔽估计，进而在特征空间中得到分离源的特征表示，以实现分离，从而得到分离特征，将分离特征输出到下一步骤；步骤3，解码阶段：接收步骤2输出的分离特征并将其转换为对应源信号的时域波形估计。本发明的有益效果是：1.本发明方法提升了语音分离的性能。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于传声器阵列确定声源信息的方法、装置及电子设备有效

专利文献下载