[发明专利]声学特征提取方法、装置、设备及存储介质在审
申请号: | 202110310466.1 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113035228A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 孙洪文;陈传艺;劳振锋;关迪聆 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李芳 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 特征 提取 方法 装置 设备 存储 介质 | ||
本申请公开了一种声学特征提取方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:对目标音频片段进行分帧处理,得到多个音频帧;提取各个音频帧分别对应的音高和音素,得到目标音频片段的音高序列信息、音素序列信息和音素位置信息;对音高序列信息、音素序列信息和音素位置信息进行合成处理,得到目标音频片段的合成属性信息;对合成属性信息进行编解码处理,得到目标音频片段的声学特征。本申请在进行声学特征提取时,除了考虑音素、音高这类基本特征,还考虑了音素位置信息,使得最终提取得到的声学特征更具准确性。
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种声学特征提取方法、装置、设备及存储介质。
背景技术
声学特征是指表示语音声学特性的物理量,也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等。
在相关技术中,提供了基于深度学习模型从音频片段中提取声学特征的方案,但已有方案所提取的声学特征的效果不佳,无法准确全面地反映音频的相关特性。
发明内容
本申请实施例提供了一种声学特征提取方法、装置、设备及存储介质。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种声学特征提取方法,所述方法包括:
对目标音频片段进行分帧处理,得到多个音频帧;
提取各个所述音频帧分别对应的音高和音素,得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息;其中,所述音高序列信息包括各个所述音频帧对应的音高,所述音素序列信息包括各个所述音频帧对应的音素,所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码;
对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理,得到所述目标音频片段的合成属性信息;
对所述合成属性信息进行编解码处理,得到所述目标音频片段的声学特征。
根据本申请实施例的一个方面,提供了一种声学特征提取模型的训练方法,所述方法包括:
获取训练样本,所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征;
提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息;其中,所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高,所述音素序列信息包括各个所述音频帧对应的音素,所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码;
对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理,得到所述样本音频片段的合成属性信息;
通过所述声学特征提取模型对所述合成属性信息进行编解码处理,得到所述样本音频片段的预测声学特征;
基于所述预测声学特征和所述目标声学特征,计算所述声学特征提取模型的损失函数值;
基于所述损失函数值对所述声学特征提取模型的参数进行调整。
根据本申请实施例的一个方面,提供了一种声学特征提取装置,所述装置包括:
分帧处理模块,用于对目标音频片段进行分帧处理,得到多个音频帧;
属性提取模块,用于提取各个所述音频帧分别对应的音高和音素,得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息;其中,所述音高序列信息包括各个所述音频帧对应的音高,所述音素序列信息包括各个所述音频帧对应的音素,所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110310466.1/2.html,转载请声明来源钻瓜专利网。