[发明专利]一种基于人工智能的语音韵律评估方法及装置在审
申请号: | 201910969890.X | 申请日: | 2019-10-12 |
公开(公告)号: | CN110782918A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 林炳怀;王丽园 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51 |
代理公司: | 11270 北京派特恩知识产权代理有限公司 | 代理人: | 赵翠萍;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音数据 节奏特征 韵律 发音特征 评估结果 评估 文本数据 决策树模型 标准发音 存储介质 电子设备 人工智能 语音韵律 发音 检测 | ||
1.一种基于人工智能的语音韵律评估方法,其特征在于,所述方法包括:
接收待评估语音数据、以及所述待评估语音数据对应的文本数据;
确定所述文本数据对应发音的韵律标准;
对所述待评估语音数据进行韵律检测处理,得到所述待评估语音数据的发音特征和节奏特征;
将所述发音特征与所述韵律标准中对应的标准发音特征进行对比,得到发音特征评估结果,以及
将所述节奏特征与所述韵律标准中对应的标准节奏特征进行对比,得到节奏特征评估结果;
通过决策树模型进行基于所述发音特征评估结果和所述节奏特征评估结果的评估处理,得到所述待评估语音数据的韵律评分。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本数据对应发音的韵律标准,包括:
确定所述文本数据对应的标准发音特征和标准节奏特征;
其中,所述标准发音特征包括标准重读位置、标准停顿位置、以及标准边界调类型。
3.根据权利要求1所述的方法,其特征在于,所述将所述发音特征与所述韵律标准中对应的标准发音特征进行对比,得到发音特征评估结果,包括:
将所述发音特征中包括的重读位置与所述标准发音特征中包括的标准重读位置进行对比,得到所述发音特征的重读错误率;
将所述发音特征中包括的停顿位置与所述标准发音特征中包括的标准停顿位置进行对比,得到所述发音特征的停顿错误率;
将所述发音特征中包括的边界调类型与所述标准发音特征中包括的标准边界调类型进行对比,得到所述发音特征的边界调类型错误率。
4.根据权利要求1所述的方法,其特征在于,所述将所述节奏特征与所述韵律标准中对应的标准节奏特征进行对比,得到节奏特征评估结果,包括:
确定所述待评估语音数据的重读音节之间的时长差异系数,并确定所述文本数据对应发音的韵律标准中重读音节之间的时长差异系数;
基于所述韵律标准中重读音节之间的时长差异系数,对所述待评估语音数据的重读音节之间的时长差异系数进行归一化处理,并将经过归一化处理后的时长差异系数确定为节奏特征评估结果。
5.根据权利要求4所述的方法,其特征在于,所述确定所述待评估语音数据的重读音节之间的时长差异系数,包括:
确定所述待评估语音数据中相邻两个重读音节之间的时间差;
确定所述时间差的标准差和所述时间差的平均值;
将所述标准差与所述平均值的商,确定为所述待评估语音数据的重读音节之间的时长差异系数。
6.根据权利要求4所述的方法,其特征在于,所述基于所述韵律标准中重读音节之间的时长差异系数,对所述待评估语音数据的重读音节之间的时长差异系数进行归一化处理,包括:
确定所述韵律标准中重读音节之间的时长差异系数的标准差和平均值;
基于所述韵律标准中重读音节之间的时长差异系数的标准差和平均值,对所述待评估语音数据的重读音节之间的时长差异系数进行归一化处理。
7.根据权利要求1所述的方法,其特征在于,所述通过决策树模型进行基于所述发音特征评估结果和所述节奏特征评估结果的评估处理,得到所述待评估语音数据的韵律评分,包括:
通过决策树模型中的节点对所述发音特征评估结果和所述节奏特征评估结果进行评分;
将得到的评分按照所述节点的权重进行加权处理,得到所述待评估语音数据的韵律评分。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述发音特征评估结果在所述文本数据的相应位置进行标注,将标注后的文本数据返回给用户终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910969890.X/1.html,转载请声明来源钻瓜专利网。