[发明专利]音频处理方法及装置、设备、计算机可读存储介质在审
| 申请号: | 202210082760.6 | 申请日: | 2022-01-24 |
| 公开(公告)号: | CN114420075A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 田思达;彭博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10H1/00 | 分类号: | G10H1/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 徐明霞 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 处理 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种音频处理方法,其特征在于,包括:
根据待处理音频的时序特征确定所述待处理音频包含的候选区间;
基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率;
若所述匹配概率大于第一预设阈值,则确定所述候选区间为所述待处理音频包含的副歌区间。
2.根据权利要求1所述的方法,其特征在于,在所述根据待处理音频的时序特征确定所述待处理音频包含的候选区间之前,包括:
构建第一深度网络,所述第一深度网络由卷积神经网络层、多层长短期LSTM网络和全连接网络层依次堆叠而成;
将待处理音频输入所述第一深度网络;
从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征。
3.根据权利要求2所述的方法,其特征在于,所述从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征,包括:
抽取最后一个LSTM网络层输出的特征作为所述待处理音频的时序特征。
4.根据权利要求1所述的方法,其特征在于,所述根据待处理音频的时序特征确定所述待处理音频包含的候选区间,包括:
将所述待处理音频的时序特征输入第二深度网络,获得所述第二深度网络输出的所述待处理音频所包含各个时刻的副歌位置概率,所述副歌位置概率包括起始点概率和结束点概率;
根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间。
5.根据权利要求4所述的方法,其特征在于,所述根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间,包括:
若所述待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率,则选取所述第一时刻作为候选区间的起始时刻;
若所述待处理音频的第二时刻对应的结束点概率大于第三预设阈值或预设区间内的所有时刻的结束点概率,则选取所述第二时刻作为候选区间的结束时刻。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
根据所述待处理音频的时序特征确定所述候选区间的区间特征;
将所述区间特征输入第三深度网络,得到所述第三深度网络输出的所述候选区间的区间概率。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
分别对所述候选区间、位于所述候选区间的起始点附近的区间、以及位于所述候选区间的结束点附近的区间进行特征提取,得到对应的候选区间特征,其中,每个候选区间特征的特征长度相同;
拼接各个候选区间特征以得到所述候选区间的区间特征;
将所述区间特征输入第三深度网络,得到所述第三深度网络输出的所述候选区间的区间概率。
8.一种音频处理装置,其特征在于,包括:
确定模块,配置为根据待处理音频的时序特征确定所述待处理音频包含的候选区间;
计算定位模块,配置为基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率;若所述匹配概率大于第一预设阈值,则确定所述候选区间为所述待处理音频包含的副歌区间。
9.一种音频处理设备,其特征在于,包括:
接收装置,用于接收待处理音频;
控制器,与接收装置电连接,以执行权利要求1-7中的任一项所述方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210082760.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:模拟企业管理的教学系统
- 下一篇:一种用于金属制品的加工定型设备





