[发明专利]多音字发音标注方法、装置、设备及存储介质有效
申请号: | 202110550710.1 | 申请日: | 2021-05-18 |
公开(公告)号: | CN113268974B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 李俊杰;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/221;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 发音 标注 方法 装置 设备 存储 介质 | ||
本发明涉及大数据领域,公开了一种多音字发音标注方法、装置、设备及存储介质。本方法包括:采集目标语料数据,获取目标语料数据中的字特征表示向量集和多音字特征表示向量;对目标语料数据进行分词处理,得到目标分词;对确定的目标语料数据对应语义信息进行向量化处理,得到对应语义信息向量;对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理,得到目标表示向量;通过多音字预测模型的线性层和softmax层,计算目标表示向量的目标发音概率,确定目标多音字的目标发音。本方案通过将语音信息和向量化处理,解决了预测多音字发音准确率低的技术问题。本发明中的语料数据可以存储于区块链中。
技术领域
本发明涉及大数据领域,尤其涉及一种多音字发音标注方法、装置、设备及存储介质。
背景技术
文字到音素(G2P)转换是从文本到语音(TTS)系统中的重要组成部分,而多音字读音如何标注是中文TTS系统的核心问题。不同于其他语言,中文里一个字符有多个发音的现象非常常见,甚至一句话中会出现多个多音字。因此,获取多音字的正确发音,对于高质量的中文文本语音合成系统至关重要。
目前,国内多家企业诸如腾讯、百度、字节跳动等都有对多音字标注的方法进行研究,但是仍旧存在准确率不高,数据质量和数量要求过高的问题。因此,如何提高预测多音字发音的准确率成为了本领域技术人员需要面临的技术问题。
发明内容
本发明的主要解决了现有技术中对于预测多音字发音的准确率低的技术问题。
本发明第一方面提供了一种多音字发音标注方法,包括:数据清洗,得到目标语料数据,其中,所述目标语料数据包含中文句子,所述中文句子包括目标多音字;将所述目标语料数据输入预置Bert预训练模型进行特征向量提取,得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量;对所述目标语料数据进行分词处理得到目标分词,并对所述目标分词进行语义识别处理,得到所述目标语料数据中所有中文句子对应的语义信息;调用词嵌入算法对所述语义信息进行向量化处理,得到所述语义信息的语义信息向量;对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理,得到注意力机制的目标表示向量;将所述目标表示向量输入预置多音字预测模型,通过所述多音字预测模型的线性层和softmax层,计算所述目标表示向量的目标发音概率,确定所述目标多音字的目标发音,对所述多音字发音进行标注。
可选地,在本发明第一方面的第一种实现方式中,所述对所述待标注原始语料数据进行数据清洗,得到目标语料数据包括:采集待标注原始语料数据;获取所述待标注原始语料数据的清洗需求;根据所述待标注原始语料数据和所述清洗需求,确定用于对所述待标注原始语料数据进行数据清洗的目标清洗规则;根据所述目标清洗规则对所述待标注原始语料数据进行数据清洗,得到目标语料数据。
可选地,在本发明第一方面的第二种实现方式中,所述将所述目标语料数据输入预置Bert预训练模型,获取所述目标语料数据中的字特征表示向量集和多音字特征表示向量包括:将所述目标语料数据输入预置Bert预训练模型,获取所述目标语料数据中的中文句子,所述中文句子中的目标多音字和所述目标多音字对应位置信息;根据所述目标多音字对应位置信息,对所述中文句子中的目标多音字进行标注,得到待处理中文句子;对所述待处理中文句子进行字特征向量表征和多音字特征向量提取,得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。
可选地,在本发明第一方面的第三种实现方式中,所述对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理,得到注意力机制的目标表示向量包括:通过预置的前馈注意力机制,对所述多音字特征表示向量和所述语义信息向量进行注意力计算,得到注意力向量;将所述注意力向量与所述多音字特征表示向量进行拼接,得到目标表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110550710.1/2.html,转载请声明来源钻瓜专利网。