[发明专利]说话人分离方法、装置及电子设备在审

专利信息
申请号: 202010580781.1 申请日: 2020-06-23
公开(公告)号: CN111785302A 公开(公告)日: 2020-10-16
发明(设计)人: 邱广;陈孝良;冯大航 申请(专利权)人: 北京声智科技有限公司
主分类号: G10L25/78 分类号: G10L25/78;G10L25/51;G10L21/0272;G10L17/00
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 黄灿;左晓菲
地址: 100098 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种说话人分离方法、装置及电子设备,所述方法包括:对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。本发明实施例能够提高进行说话人分离的准确率。
搜索关键词: 说话 分离 方法 装置 电子设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010580781.1/,转载请声明来源钻瓜专利网。

同类专利
  • 一种语音端点检测方法、装置、电子设备及存储介质-202310943545.5
  • 张立军;朱哲慧;孟德建 - 同济大学
  • 2023-07-28 - 2023-10-27 - G10L25/78
  • 本发明涉及一种语音端点检测方法、装置、电子设备及存储介质,其中,语音端点检测方法包括:对待检测音频信号进行预处理,获取目标音频信号;根据目标音频信号,获取噪声帧和非噪声帧;根据噪声帧和非噪声帧之间的帧特征相似度,获取初始软端点检测结果;根据初始软端点检测结果,更新噪声帧和非噪声帧;根据更新后的噪声帧和非噪声帧之间的帧特征相似度,获取目标软端点检测结果。与现有技术相比,本发明具有检测效果好、复杂度低、实时性强等优点。
  • 基于伪Wigner-Ville分布的数字音频自适应复制粘贴检测方法及装置-202310972215.9
  • 史沧红;彭锴;李孝杰;牛宪华;熊玲 - 西华大学
  • 2023-08-03 - 2023-10-17 - G10L25/78
  • 本发明公开基于伪Wigner‑Ville分布的数字音频自适应复制粘贴检测方法及装置,涉及数字音频信号处理技术领域,拟解决现有技术在真实环境下复制移动检测时自适应性不强导致检测效果不佳的问题;本发明包括S1:利用变分模态分解VMD将原始音频分解为多个本征模态特征IMF分量;S2:利用最大相关最小冗余算法筛除部分IMF分量再进行加权重构得到新的自适应音频信号;S3:利用语音活动检测VAD将自适应处理后的音频分为有声段和无声段;S4:提取每个有声段的平滑伪Wigner‑Ville分布SPWVD;S5:对SPWVD进行相似度判定;本发明能够自适应处理不同后处理操作下的copymove篡改,并在检测中表现其强大的鲁棒性和自适应性,可以很好的在现实世界的音频取证中得到应用。
  • 一种音频混合方法及系统-202310816262.4
  • 詹澄海;曾水生;韦玉善;涂华康 - 深圳市东明炬创电子股份有限公司
  • 2023-07-04 - 2023-10-13 - G10L25/78
  • 本申请涉及一种音频混合方法及系统,属于音视频处理技术领域,其包括获取每个使用者的模拟音频信号以及图像数据;对图像数据进行实时分析处理,得到每个图像数据中使用者唇部的动作指数;判断每个动作指数是否大于指数阈值;若大于,则判断对应的模拟音频信号是否为有效语音;若为有效语音,将模拟音频信号切换为待混音音频;对所有的待混音音频进行音频混合处理,生成混音音频。若动作指数大于指数阈值则说明使用者的唇部有动作可能在发言,若模拟音频信号为有效语音,则说明使用者在发言,将模拟音频信号切换为待混音音频,仅将发言的使用者的模拟音频信号作为待混音音频并进行混音输出,本申请具有在发言的使用者的音频自动混音的效果。
  • 一种单路引擎多麦克风语音转写系统与角色分离方法-202311119975.1
  • 朱正辉;赵定金;余吉昌;明德 - 广东保伦电子股份有限公司
  • 2023-09-01 - 2023-10-10 - G10L25/78
  • 本发明涉及语音转写技术领域,特别是指一种单路引擎多麦克风语音转写系统及角色分离方法,包括音频采集单元、音频编码器、语音识别引擎ASR、语音转写客户端、语音转写服务器、字幕显示大屏;位于会场中的每位参会人面前放置会议单元麦克风,会议单元麦克风通过音频线接入音频编码器,音频编码器通过网络连接语音转写服务器、语音转写服务器通过网络分别连接语音转写客户端、语音转写引擎ASR以及字幕显示大屏。本发明利用单路引擎通过排序转写进行多个会议单元麦克风的语音转写,实现人员角色分离,不需要人员二次编辑,即可实现转写文本的角色分离,减少了资源浪费,更加适用于多人同时说话的会议中的语音识别实时转写。
  • 一种跨子带谱熵加权似然比语音检测方法及系统-202310963463.7
  • 何伟俊;符志定;廖学远;何宇欣;林沛 - 广东技术师范大学
  • 2023-08-02 - 2023-09-29 - G10L25/78
  • 本发明公开了一种跨子带谱熵加权似然比语音检测方法及系统,首先在频域进行非均匀部分重叠子带划分,提取各子带的谱熵特征;然后根据子带谱熵大小以及子带的能量谱与非语音帧子带平均能量谱的比值大小,设置对应子带的似然比权值;最后利用加权后的似然比结合预设阈值检测判断某帧信号是否为语音帧。本发明依据语音信号谱熵特征在噪声背景下具有稳健性,利用子带谱熵信息设置似然比检验检测法中的似然比权值,使用加权的似然比作为语音检测判决依据之一,提升了低信噪比环境下的似然比检验语音检测方法的检测准确率,适用于语音识别、说话人识别等语音信号处理领域。
  • 音频信号的处理方法、装置、电子设备和存储介质-202110336613.2
  • 周新权 - 北京字节跳动网络技术有限公司
  • 2021-03-29 - 2023-09-26 - G10L25/78
  • 本公开提供一种音频信号的处理方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:获取目标音频信号的音频特征,其中,音频特征包括至少一个音频特征单元;将每个音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签,其中,音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项。该实施方式不仅能够识别音频信号是否为语音,还可以识别音频信号具体为近场语音、远场语音还是音乐,从而为后续的音频处理提供可靠的类别信息,大大提高了音频处理的效率和效果。
  • 一种测试方法、装置、设备以及存储介质-202310453369.7
  • 汪鹏;迪力亚尔·帕尔哈提;黄明明;杨娟娟;车婷婷 - 百度时代网络技术(北京)有限公司
  • 2023-04-25 - 2023-09-15 - G10L25/78
  • 本公开提供了一种测试方法、装置、设备以及存储介质,计算机技术领域,尤其涉及语音识别、音频会议和语音编码等技术领域。具体实现方案为:基于待进行测试的目标VAD算法,对测试音频进行语音区域识别,得到识别结果;利用所述识别结果以及所述测试音频的人工标注结果,计算所述目标VAD算法对应的多个指定测试指标的指标值;获得针对指定测试需求所确定的、所述多个指定测试指标的参考指标值;基于所述目标VAD算法对应的多个指定测试指标的指标值,以及所获得的参考指标值,确定所述目标VAD算法在所述指定测试需求下的测试结果。可见,通过本方案,可以更加全面地评估目标VAD算法在各个测试需求下的性能表现。
  • 信号处理方法和信息处理设备-201910104232.4
  • 刘柳;石自强;林慧镔;刘汝杰 - 富士通株式会社
  • 2019-02-01 - 2023-09-08 - G10L25/78
  • 本公开提供了信号处理方法和信息处理设备。信息处理设备包括处理器,所述处理器被配置为:对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分,以获得与各个子带对应的子带信号;将所获得的子带信号输入到预先训练好的分类模型中;以及利用分类模型确定声音信号中所包括的声音事件的类别,其中,分类模型包括分别与各个子带相对应的多个子带模型,每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重,并根据被施加权重后的子带信号输出关于声音事件的初步分类结果,以及其中,分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。
  • 语音激活检测方法、装置、电子设备和存储介质-202111535021.X
  • 张国昌;于利标;魏建强 - 北京百度网讯科技有限公司
  • 2021-12-15 - 2023-08-29 - G10L25/78
  • 本公开提供了语音激活检测方法、装置、电子设备和存储介质,涉及语音处理技术领域,具体为人工智能和深度学习技术领域。具体实现方案为:获取第一音频信号,并提取所述第一音频信号的频域特征;将所述第一音频信号的频域特征输入至语音激活检测模型中,得到所述语音激活检测模型输出的语音存在检测结果,其中,所述语音激活检测模型用于检测所述第一音频信号中是否存在语音。本公开实施例可以提高语音激活检测的检测准确率,降低检测复杂性。
  • 语音唤醒方法、语音唤醒装置及存储介质-202310650035.9
  • 鲁勇;刘波;刘海平;梁健林 - 北京探境科技有限公司
  • 2023-06-02 - 2023-08-29 - G10L25/78
  • 本申请提出了一种语音唤醒方法、语音唤醒装置及存储介质。该语音唤醒方法包括:采集语音数据形成语音流;获取语音流中连续n个帧的统计参量的平均值,并作为初始门限值;从第n+1个帧开始,识别当前帧是语音帧还是静音帧;若是语音帧,则确定新门限值为初始门限值与增量值之和,增量值GΔ满足GΔ=x*M,x为已判定为语音帧的统计参量的长时平均值的1/P,P为预设脱离死锁状态的最大帧数,x的初始值为1,M为预设步长;若是静音帧,则采用一阶惯性滤波算法确定新门限值;根据新门限值识别当前帧后的帧是语音帧还是静音帧;在确定存在至少一语音帧时,执行语音识别操作和/或唤醒控制设备。本申请可以防止出现死锁状态,提高系统鲁棒性。
  • 语音活动检测装置与语音活动检测方法-202310678003.X
  • 朱晓鼎 - 星宸科技股份有限公司
  • 2023-06-08 - 2023-08-22 - G10L25/78
  • 本申请提供一种语音活动检测装置与语音活动检测方法,语音活动检测装置包括音频处理电路、第一内存以及处理器。音频处理电路处理自一音频产生电路提供的一音频信号以产生一第一音频数据。第一内存储存所述第一音频数据与一第一代码。处理器执行所述第一代码以操作在一第一模式,并响应自所述音频产生电路提供的一中断信号切换为操作在第二模式,以执行一第二内存中的一第二代码以判断储存在所述第一内存中的所述第一音频数据是否包括一人声信号,其中所述处理器操作在所述第一模式的功率消耗低于所述处理器操作在所述第二模式的功率消耗。
  • 一种音频处理方法及设备-202310380459.8
  • 李林峰;黄海荣 - 湖北星纪魅族科技有限公司
  • 2023-04-04 - 2023-08-22 - G10L25/78
  • 本申请提供一种音频处理方法及设备,该方法包括:采集音频数据;将音频数据存储至录音队列中,其中,录音队列为先进先出队列;从录音队列取出当前音频帧;确定当前音频帧的静音检测结果为非静音音频帧、全局状态为静音状态;确定存在连续第一帧数的非静音音频帧;拷贝静音检测队列的音频帧到识别队列的尾部,其中,静音检测队列为循环队列,识别队列为先进先出队列。
  • 一种基于字典学习的无监督异常声检测方法和装置-202110523125.2
  • 苏新萍;王晨;邵曦;姚瑶;邱慧贞 - 南京邮电大学
  • 2021-05-13 - 2023-07-28 - G10L25/78
  • 本发明公开了一种基于字典学习的无监督异常声检测方法和装置,包括:生成训练集和测试集,训练集中只有正常运行状态下的机械声音频样本;对训练集中的样本数据进行预处理,分隔得到若干个音频帧;对音频帧进行特征提取,采用K‑SVD算法和OMP算法求解得到音频的本质特征和训练集稀疏系数;将求解得到的音频的本质特征和稀疏系数导入分类模型,对模型进行训练;该分类模型用于对导入的测试集稀疏系数进行处理,输出该测试集稀疏系数对应的音频样本的类别。本发明能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。
  • 音频设备及语音识别方法-202011130110.1
  • 童伟峰;张亮 - 恒玄科技(上海)股份有限公司
  • 2020-10-21 - 2023-07-28 - G10L25/78
  • 本申请提供一种音频设备及语音识别方法,该音频设备包括:探测模块及语音活动检测模块,探测模块为雷达探测器或被动红外传感器,探测模块每隔第一预设时长发送探测信号,并在探测到探测信号的反射信号且反射信号满足预设条件时唤醒语音活动检测模块;语音活动检测模块在被唤醒后,检测有无语音信号。本申请中,探测模块每隔第一预设时长发射探测信号,相较于现有技术持续发送探测信号的方案,能够降低音频设备的功耗,且在探测到探测信号的反射信号且反射信号满足预设条件时才唤醒语音活动检测模块,相较于现有技术持续开启语音活动检测模块的方案,能够进一步降低音频设备的功耗。
  • 婴儿啼哭检测方法、检测装置、电子设备及存储介质-202310183220.1
  • 闫冰程;陈琳;王江;张家源;林友钦 - 漳州立达信光电子科技有限公司
  • 2023-03-01 - 2023-07-18 - G10L25/78
  • 本申请公开了一种婴儿啼哭检测方法、检测装置、电子设备及存储介质,婴儿啼哭检测方法,包括:获取当前环境音频数据;输入当前环境音频数据至目标婴儿啼哭检测模型,使得目标婴儿啼哭检测模型根据当前环境音频数据输出对应的婴儿啼哭检测结果,婴儿啼哭检测结果包括婴儿啼哭结果以及婴儿未啼哭结果,目标婴儿啼哭检测模型基于时延神经网络和残差网络得到;接收目标婴儿啼哭检测模型返回的婴儿啼哭检测结果。本方法实现了根据时延神经网络以及残差网络构建的目标婴儿啼哭检测模型,对婴儿啼哭进行检测,目标婴儿啼哭检测模型的表达能力强,提高了对婴儿啼哭进行检测的检测准确率。
  • 音频处理方法及装置-202010327785.9
  • 肖国坤 - 维沃移动通信有限公司
  • 2020-04-23 - 2023-07-07 - G10L25/78
  • 本申请实施例提供一种音频处理方法,应用于移动通信技术领域。该方法通过两个麦克风分别采集第一音频信号;对所述第一音频信号进行降噪处理,生成第二音频信号;获取所述第二音频信号中的空白音频片段;删除所述第二音频信号中的至少部分所述空白音频片段,得到目标音频。将采集到的第一音频信号去除环境噪音和空白音频片段后得到目标音频,从而保证了用户在收听音频过程中,不被无用的音频信息打断。
  • 一种语音检测装置的控制方法和装置-202310425559.8
  • 王帅;叶媲舟;韩静 - 深圳锐盟半导体有限公司
  • 2023-04-20 - 2023-06-30 - G10L25/78
  • 本申请实施例应用于语音检测领域,提供了一种语音检测装置的控制方法和装置,语音检测装置包括声音接收模块和语音识别模块,声音接收模块用于将接收的声音信号转换为待处理声音,待处理声音是电信号,语音识别模块用于对待处理声音进行语音识别该方法包括:对待处理声音进行检测,以确定声音信号中是否存在语音;在声音信号中不存在语音的情况下,控制声音接收模块处于间歇工作状态,处于间歇工作状态的声音接收模块对声音信号的转换是间断性进行的。基于本申请的方法,能够降低语音检测装置的功耗。
  • 用于语音识别的电路和方法-201710605515.8
  • 保罗·吉莱蒂 - 道芬设计公司
  • 2017-07-24 - 2023-06-27 - G10L25/78
  • 本发明涉及一种用于语音识别的电路,其包括:声音检测电路(304),其被配置为基于至少一个输入参数来检测输入音频信号(音频)中的声音信号的存在并且生成关于每个声音检测事件的激活信号(唤醒);语音识别电路(310),其被配置为由激活信号激活并且对输入音频信号执行语音识别,语音识别电路还被配置为基于语音识别来生成指示每个声音检测事件是真还是假的输出信号(真/假);以及分析电路(320),其被配置为基于语音识别电路(310)的输出信号来生成用于修改所述输入参数中的一个或多个的控制信号。
  • 一种利用声音画像辅助的语音边界检测方法及系统-202010148900.6
  • 高扬 - 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
  • 2020-03-05 - 2023-05-26 - G10L25/78
  • 本发明提供了一种利用声音画像辅助的语音边界检测方法包括以下步骤:S1:接收目标用户的语音信息;S2:提取接收的语音信息中的声音画像信息;S3:基于语音识别评分模型,对提取的声音画像信息中的所有目标项一一识别评分,并得到综合评分;S4:根据综合评分结果,获取与目标用户相关的语音边界检测时长。本实施例提供的一种利用声音画像辅助的语音边界检测方法和设备可以根据不同的用户确定与之相适应的语音边界检测时长,提高语音识别成功率,进而提高用户的体验。
  • 语音激活检测方法、装置、存储介质及电子设备-202211735105.2
  • 李锐;韩科委 - 达闼科技(北京)有限公司
  • 2022-12-30 - 2023-05-12 - G10L25/78
  • 本公开涉及一种语音激活检测方法、装置、存储介质及电子设备,该方法包括:从待检测语音的起始位置截取初始统计窗长的待检测子语音,将待检测子语音作为目标待检测子语音,根据目标待检测子语音的目标语音检测结果,确定下一级统计窗长,从目标待检测子语音的末尾位置截取下一级待检测子语音,将下一级待检测子语音作为目标待检测子语音,重复根据目标语音检测结果至截取下一级统计窗长的下一级待检测子语音的步骤,若下一级待检测子语音的语音检测结果为零,则在下一级待检测子语音的末尾位置截断待检测语音,生成目标待检测语音,激活目标待检测语音的语音检测。从而通过动态变化的统计窗长,准确确定出语音中的语音结尾,提高用户的产品体验。
  • 语音分离方法、系统、移动终端及存储介质-202010105157.6
  • 曾志先;肖龙源;李稀敏;蔡振华;刘晓葳 - 厦门快商通科技股份有限公司
  • 2020-02-20 - 2023-05-05 - G10L25/78
  • 本发明提供了一种语音分离方法、系统、移动终端及存储介质,该方法包括:获取样本音频进行音频组合得到标签音频数据;对标签音频数据进行音频融合得到融合音频,对融合音频和标签音频数据进行频谱转换,得到融合频谱图特征和标签频谱图特征;将融合频谱图特征输入LSTM网络和Mask网络进行计算,得到频谱过滤特征;根据频谱过滤特征和融合频谱图特征进行预测计算,得到预测频谱特征;根据预测频谱特征和标签频谱图特征进行损失计算,得到损失值,根据损失值对语音分离模型进行迭代训练,直至语音分离模型收敛;将待识别语音输入语音分离模型进行语音分离,得音频分离文件。本发明通过采用端到端结构实现了多人说话的音频分离,提高了语音识别的准确率。
  • 声音处理方法、系统、可读存储介质及计算机设备-202310131883.9
  • 邱晓健;连峰;邱正峰;崔韧;吴鼎元 - 南昌航天广信科技有限责任公司
  • 2023-02-18 - 2023-05-02 - G10L25/78
  • 本发明提供一种声音处理方法、系统、可读存储介质及计算机设备,该方法应用于吊麦,包括:获取吊麦以自身为圆心在预设半径内采集到的多个音源数据;对音源数据依次进行边界检测及质量检测,并经过短时傅里叶变换得到幅度谱及相位谱;将幅度谱输入至人声分离模型中得到人声幅度谱和其他幅度谱;将人声幅度谱、其他幅度谱和相位谱进行逆短时傅里叶变换得到分离后的人声信号数据及其他信号数据;将其他信号数据输入至人声识别模型中,以判断其他信号数据中是否存在人声数据;若其他信号数据中不存在人声数据,删除其他信号数据。本发明利用幅度谱的方式对音源数据进行人声分离,以保证吊麦所输出的音源数据趋近于人声数据。
  • 静音点检测方法及装置、存储介质、电子设备-201811084482.8
  • 李萧萧;李俊玲 - 京东科技控股股份有限公司
  • 2018-09-18 - 2023-05-02 - G10L25/78
  • 本公开涉及计算机技术领域,尤其涉及一种静音点检测方法及装置、存储介质、电子设备。该方法包括:在语音信息的频谱信息上获取多个检测窗口和各所述检测窗口的频谱信息;根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的静音分数,其中,所述预测模型为具有三层2D CNN、五层Bi‑GRU RNN以及一个全连接层的端到端神经网络;根据各所述检测窗口的静音分数并结合一预设分数确定静音窗口,并通过所述静音窗口确定静音点。本公开提高了静音点的检测准确率。
  • 一种自适应检测语音结束的方法及系统-202011498888.8
  • 邹朋朋;陈现麟;王强 - 北京读我网络技术有限公司
  • 2020-12-16 - 2023-05-02 - G10L25/78
  • 本发明公开了一种自适应检测语音结束的方法及系统,方法包括:获取目标用户输入的语音;获取目标用户的阈值,其中,目标用户的阈值包括:目标用户的能量阈值;获取基于参考文本以及目标用户输入的语音得到的解码结果;基于解码结果,判断目标用户输入的语音的平均能量与累加的全局平均能量的比值是否小于目标用户的能量阈值,若是,则:判定目标用户语音输入结束。本发明能够自动检测语音是否已经结束,进而结束录音,相对于现有技术,解放了孩童双手,提升了用户体验。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top