[发明专利]音素级的发音纠错方法、装置、设备及存储介质在审

申请号：	202111424491.9	申请日：	2021-11-26
公开（公告）号：	CN114360505A	公开（公告）日：	2022-04-15
发明（设计）人：	林炳怀;王丽园	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/26;G10L25/60;G06K9/62
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	李文静
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音素发音纠错方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种音素级的发音纠错方法、装置、设备及存储介质，属于计算机与互联网技术领域。所述方法包括：获取跟读文本对应的跟读音频数据；获取跟读音频数据中各个音频帧分别对应的音频特征，以及获取跟读文本包含的音素的音素特征；将各个音频帧分别对应的音频特征与音素特征分别进行融合，得到各个音频帧分别对应的融合特征；根据各个音频帧分别对应的融合特征，获取跟读音频数据包含的至少一个音素数据，以及各个音素数据的读错概率；基于各个音素数据的读错概率，确定跟读音频数据中的读错音素。本申请中，不需要依据跟读文本包含的音素生成标准发音数据，简化音素判错流程，提高音素判错的处理效率。

技术领域

本申请涉及计算机与互联网技术领域，特别涉及一种音素级的发音纠错方法、装置、设备及存储介质。

背景技术

目前，在口语测评中可以从音素级别对用户跟读的声音数据进行音素判错。

在相关技术中，在口语测评中，获取声音数据之后，将声音数据中的发音段与标准发音数据中的发音段进行比对，如果对比中出现部分不同的音素，则确定声音数据中的该音素读错。

然而，在上述相关技术中，对声音数据的音素判错依赖于外部的标准发音数据，在口语测评之前需要生成标准发音数据，测评流程繁琐。

发明内容

本申请实施例提供了一种音素级的发音纠错方法、装置、设备及存储介质，简化音素判错流程，提高音素判错的处理效率。所述技术方案如下。

根据本申请实施例的一个方面，提供了一种音素级的发音纠错方法，所述方法包括以下步骤：

获取跟读文本对应的跟读音频数据；

获取所述跟读音频数据中各个音频帧分别对应的音频特征，以及获取所述跟读文本包含的音素的音素特征；

将各个所述音频帧分别对应的音频特征与所述音素特征分别进行融合，得到各个所述音频帧分别对应的融合特征；