[发明专利]声音处理方法、系统、电子设备和计算机可读介质在审
申请号: | 201810868993.2 | 申请日: | 2018-08-01 |
公开(公告)号: | CN110797045A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 杨楠 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G10L25/21 | 分类号: | G10L25/21;G10L25/27 |
代理公司: | 11021 中科专利商标代理有限责任公司 | 代理人: | 吕雁葭 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声源 音频帧 最大能量 计算机可读介质 声音处理系统 追踪 电子设备 声音处理 概率 匹配 | ||
1.一种声音处理的方法,包括:
获取多个音频帧;
确定产生当前音频帧的声音的潜在声源;
从所述潜在声源中确定产生当前音频帧的声音的瞬时最大能量声源;
根据产生历史音频帧的声音的潜在声源和所述产生当前音频帧的声音的潜在声源,确定产生当前音频帧的声音的多个被追踪声源;
确定所述瞬时最大能量声源与所述多个被追踪声源分别匹配的多个第一概率;以及
基于所述多个第一概率,确定产生所述当前音频帧的声音的最大能量声源。
2.根据权利要求1所述的方法,其中,所述基于所述多个第一概率,确定产生所述当前音频帧的声音的最大能量声源包括:
将所述多个第一概率中的最大第一概率对应的被追踪声源作为目标声源;
确定历史音频帧和当前音频帧对应的所述多个目标声源;
对于所述多个目标声源中的每个目标声源,对产生所述历史音频帧和当前音频帧的声音中的该目标声源的最大第一概率求和,求和结果除以所述历史音频帧和当前音频帧的数量,其结果作为该目标声源对应的最大第一概率的平均值;以及
确定最大的所述平均值对应的目标声源为产生当前音频帧的声音的最大能量声源。
3.根据权利要求2所述的方法,其中,所述对于所述多个目标声源中的每个目标声源,对产生所述历史音频帧和当前音频帧的声音中的该目标声源的最大第一概率求和,求和结果除以所述历史音频帧和当前音频帧的数量,其结果作为该目标声源对应的最大第一概率的平均值包括:
在所述多个音频帧的数量小于第一预设数量的情况下,对于所述多个目标声源中的每个目标声源,对产生所述多个音频帧的声音中的该目标声源的最大第一概率求和,求和结果除以所述多个音频帧的数量,其结果作为该目标声源对应的最大第一概率的平均值;以及
在所述多个音频帧的数量不小于第一预设数量的情况下,对于所述多个目标声源中的每个目标声源,对产生第一预设数量的连续音频帧的声音中的该目标声源的最大第一概率求和,求和结果除以所述第一预设数量,其结果作为该目标声源对应的最大第一概率的平均值,其中,当前音频帧为所述第一预设数量的连续音频帧的终止帧。
4.根据权利要求1所述的方法,还包括:
输出与所述最大能量声源相对应的声音信息。
5.根据权利要求1所述的方法,其中,所述根据产生历史音频帧的声音的潜在声源和所述产生当前音频帧的声音的潜在声源,确定产生当前音频帧的声音的多个被追踪声源包括:
确定处于观察期的被追踪声源,其中,所述观察期是指从某一潜在声源第一次出现到该潜在声源被确定为被追踪声源之前的多个音频帧;
确定所述处于观察期的被追踪声源存在于产生所述多个音频帧的声音中的第二概率;
在所述第二概率大于第一阈值的情况下,确定所述处于观察期的被追踪声源为被追踪声源。
6.根据权利要求1所述的方法,其中,所述根据产生历史音频帧的声音的潜在声源和所述产生当前音频帧的声音的潜在声源,确定产生当前音频帧的声音的多个被追踪声源包括:
在第二预设数量的连续音频帧中,若所述多个被追踪声源中的某一被追踪声源与所述潜在声源匹配的第三概率均小于第二阈值,则删除该被追踪声源。
7.一种声音处理系统,包括:
获取模块,用于获取多个音频帧;
第一确定模块,用于确定产生当前音频帧的声音的潜在声源;
第二确定模块,用于从所述潜在声源中确定产生当前音频帧的声音的瞬时最大能量声源;
第三确定模块,用于根据产生历史音频帧的声音的潜在声源和所述产生当前音频帧的声音的潜在声源,确定产生当前音频帧的声音的多个被追踪声源;
第四确定模块,用于确定所述瞬时最大能量声源与所述多个被追踪声源分别匹配的多个第一概率;以及
第五确定模块,用于基于所述多个第一概率,确定产生所述当前音频帧的声音的最大能量声源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810868993.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 声音处理方法、系统、电子设备和计算机可读介质-201810868993.2
- 杨楠 - 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
- 2018-08-01 - 2020-02-14 - G10L25/21
- 本公开提供了一种声音处理的方法,包括获取多个音频帧,确定产生当前音频帧的声音的潜在声源,从所述潜在声源中确定产生当前音频帧的声音的瞬时最大能量声源,根据产生历史音频帧的声音的潜在声源和所述产生当前音频帧的声音的潜在声源,确定产生当前音频帧的声音的多个被追踪声源,确定所述瞬时最大能量声源与所述多个被追踪声源分别匹配的多个第一概率,以及基于所述多个第一概率,确定产生所述当前音频帧的声音的最大能量声源。本公开还提供了一种声音处理系统、一种电子设备以及一种计算机可读介质。
- 一种基于功率谱Gabor特征序列递归模型的语音识别方法-201710292486.4
- 卜起荣;张晓;冯筠;曹正文 - 西北大学
- 2017-04-28 - 2020-02-04 - G10L25/21
- 本发明公开了一种基于功率谱Gabor特征序列递归模型的语音识别方法,该方法的基本步骤包括:1.对语音输入信号进行预处理;2.分别提取功率谱特征和动态谱Delta特征;3.利用时空Gabor滤波器对频谱特征进行滤波处理,并且通过PCA降维处理得到语音特征序列;4.根据语音特征序列,构造递归图;5.通过对语音递归模型进行距离检测,完成语音识别。本发明通过对语音信号进行预处理,经过特征提取得到语音特征序列,然后将语音特征序列转化为递归模型进行相似性检测,有效的解决了目前自动语音识别系统在非稳态噪声、低信噪比等复杂情况下识别率不够理想、性能容易恶化的问题,提高了语音识别算法的鲁棒性。
- 一种多媒体数据处理方法及其装置-201611094263.9
- 赵伟峰 - 腾讯音乐娱乐(深圳)有限公司
- 2016-12-01 - 2019-12-13 - G10L25/21
- 本发明实施例公开一种多媒体数据处理方法及其装置,其中方法包括如下步骤:获取多媒体数据对应的多个音频文件样本,并生成各音频文件样本分别对应的目标音频能量矩阵;各音频文件样本中的帧数相同;每个目标音频能量矩阵中的各元素分别为所述目标音频文件样本中各帧的音频能量值;对所有所述目标音频能量矩阵中各帧的音频能量值进行均值化处理,获得目标均值化矩阵,所述目标均值化矩阵中的各元素为各帧的音频能量平均值;将所述目标均值化矩阵中的最大音频能量平均值对应的帧确定为目标帧,并根据所述目标帧确定所述多媒体数据的副歌起始时刻。本发明实施例可以通过多个音频文件样本完成对多媒体数据的副歌的准确定位。
- 副歌提取装置和方法-201510463507.5
- 吴威麒;刘华平;范义军;刘力铭 - 阿里巴巴集团控股有限公司
- 2015-07-31 - 2019-11-19 - G10L25/21
- 本申请公开一种副歌提取装置和方法,其中该装置包括:预处理模块,用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;子带获取模块,用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;平滑处理模块,用于对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;包络提取模块,用于提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;副歌提取模块,用于采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。本申请具有计算量小及准确率高的优点。
- 专利分类