[发明专利]一种音频数据处理方法、装置、电子设备、介质和程序产品有效
申请号: | 202210106767.7 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114446268B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王艺鹏 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10H1/36 | 分类号: | G10H1/36;G10H1/40;G10L25/03;G10L25/51 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 数据处理 方法 装置 电子设备 介质 程序 产品 | ||
1.一种音频数据处理方法,包括:
获取待调整人声音频数据;
获取参考人声音频数据,其中所述参考人声音频数据与所述待调整人声音频数据基于相同的文字信息获得;
分别对所述待调整人声音频数据和所述参考人声音频数据进行分帧,以分别获得第一音频帧集合和第二音频帧集合;
分别识别所述第一音频帧集合和第二音频帧集合中的每一个音频帧所对应的发音单元,所述发音单元包括以下项中的至少一项:中文发音的声母和韵母、以及英文发音的音素;
基于所述每一个音频帧的时间戳,分别确定所述待调整人声音频数据和所述参考人声音频数据中的各个发音单元的时间戳;以及
对所述待调整人声音频数据中的发音单元的时间戳进行调整,以使得所述待调整人声音频数据与所述参考人声音频数据中的相对应的发音单元的时间戳一致,其中,对所述待调整人声音频数据中的发音单元的时间戳进行调整包括:
分别基于所述待调整人声音频数据和所述参考人声音频数据中的各个发音单元的时间戳,确定两个字之间的空白区域的时间戳;以及
基于时间顺序依次对所述待调整人声音频数据中的发音单元的时间戳以及空白区域的时间戳进行调整。
2.如权利要求1所述的方法,其中,分别确定所述待调整人声音频数据和所述参考人声音频数据中的各个发音单元的时间戳包括:
获取所述第一音频帧集合所对应的第一音频特征以及所述第二音频帧集合所对应的第二音频特征;
基于所述第一音频特征和所述第二音频特征,获得所述第一音频帧集合和所述第二音频帧集合中的相应帧之间的对应关系;
确定所述参考人声音频数据中的各个发音单元的时间戳;以及
基于所述参考人声音频数据的所述时间戳以及所述对应关系,确定所述待调整人声音频数据中的各个发音单元的时间戳。
3.如权利要求1所述的方法,其中,获取待调整人声音频数据包括:
获取终端设备采集的原始人声音频数据;以及
对所述原始人声音频数据进行预处理,以获得待调整人声音频数据,
其中,所述预处理包括以下项中的至少一项:降噪、去除混响。
4.如权利要求1所述的方法,其中,获取参考人声音频数据包括:
获取所述待调整人声音频数据所对应的参考音频数据;以及
将所述参考音频数据中的人声音频数据与伴奏音频数据进行分离,以获得参考人声音频数据。
5.如权利要求4所述的方法,其中,基于经训练的人声分离模型对所述参考音频数据进行人声分离,其中,
所述人声分离模型基于预设样本数据和spleeter算法进行迁移学习训练得到,所述预设样本数据包括:多个伴奏音频数据、多个人声音频数据、以及基于所述多个伴奏音频数据和所述多个人声音频数据所组成的多个混合音频数据。
6.如权利要求2所述的方法,其中,所述第一音频特征和所述第二音频特征中的至少一个包括:梅尔倒谱系数特征和基频特征。
7.如权利要求1所述的方法,其中,基于经训练的包括高斯混合模型和隐马尔科夫模型的模型识别所述每一个音频帧所对应的发音单元。
8.如权利要求1或7所述的方法,其中,基于经训练的包括深度神经网络和隐马尔科夫模型的模型确定所识别出的每一个所述发音单元的时间戳。
9.如权利要求2所述的方法,其中,基于以下算法中的至少一个获取所述第一音频帧集合和所述第二音频帧集合中的相应帧之间的对应关系:DTW算法、FastDTW算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210106767.7/1.html,转载请声明来源钻瓜专利网。