[发明专利]声学特征提取方法、装置、设备及存储介质在审

申请号：	202110310466.1	申请日：	2021-03-23
公开（公告）号：	CN113035228A	公开（公告）日：	2021-06-25
发明（设计）人：	孙洪文;陈传艺;劳振锋;关迪聆	申请（专利权）人：	广州酷狗计算机科技有限公司
主分类号：	G10L25/03	分类号：	G10L25/03;G10L25/30
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	李芳
地址：	510660 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声学特征提取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种声学特征提取方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：对目标音频片段进行分帧处理，得到多个音频帧；提取各个音频帧分别对应的音高和音素，得到目标音频片段的音高序列信息、音素序列信息和音素位置信息；对音高序列信息、音素序列信息和音素位置信息进行合成处理，得到目标音频片段的合成属性信息；对合成属性信息进行编解码处理，得到目标音频片段的声学特征。本申请在进行声学特征提取时，除了考虑音素、音高这类基本特征，还考虑了音素位置信息，使得最终提取得到的声学特征更具准确性。

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种声学特征提取方法、装置、设备及存储介质。

背景技术

声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

在相关技术中，提供了基于深度学习模型从音频片段中提取声学特征的方案，但已有方案所提取的声学特征的效果不佳，无法准确全面地反映音频的相关特性。

发明内容

本申请实施例提供了一种声学特征提取方法、装置、设备及存储介质。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种声学特征提取方法，所述方法包括：

对目标音频片段进行分帧处理，得到多个音频帧；

提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；

对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；

对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。