[发明专利]多音字发音的预测方法、装置、设备及存储介质在审
申请号: | 202011432585.6 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112528648A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 李俊杰;张志宇;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06K9/62;G06N3/04 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多音字 发音 预测 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,提供一种多音字发音的预测方法、装置、设备及存储介质,用于提高预测多音字发音的准确率。多音字发音的预测方法包括:获取经过标注的待处理中文语句,并获取待处理中文语句的字表示向量集和多音字表示向量,待处理中文语句包括目标多音字;对待处理中文语句进行分词处理得到目标分词,并根据目标分词将字表示向量集转换为词级特征表示向量;对多音字表示向量和词级特征表示向量进行基于注意力机制的拼接处理,得到目标向量;通过预置的线性层,计算目标向量的目标拼音概率,并根据目标拼音概率确定目标多音字的目标发音。此外,本发明还涉及区块链技术,经过标注的待处理中文语句可存储于区块链中。
技术领域
本发明涉及人工智能的智能决策领域,尤其涉及一种多音字发音的预测方法、装置、设备及存储介质。
背景技术
文字到音素(grapheme-to-phoneme)转换是从文本到语音(Text-to-Speech)系统中的重要组成部分。但是不同于其他语言,中文里一个字符在不同情况下具有不同发音的情况十分常见,甚至有许多汉字有超过3种发音。因此,多音字发音标注系统的好坏十分影响中文语音合成系统的质量,如果标错发音,会导致合成出的语音出现明显错误。目前,对于多音字发音的预测方法通常为利用已经标注好的数据以及对已经标注好的数据进行随机初始化一组向量来预测多音字的发音。
但是,由于随机初始化一组向量会导致在多音字发音预测时,若遇到在训练模型时未标注过的词则无法识别的问题,即未登录词问题(out of vocabulary),因而,导致了预测多音字发音的准确率较低。
发明内容
本发明提供一种多音字发音的预测方法、装置、设备及存储介质,用于提高预测多音字发音的准确率。
本发明第一方面提供了一种多音字发音的预测方法,包括:
获取经过标注的待处理中文语句,并获取所述待处理中文语句的字表示向量集和多音字表示向量,所述待处理中文语句包括目标多音字;
对所述待处理中文语句进行分词处理得到目标分词,并根据所述目标分词将所述字表示向量集转换为词级特征表示向量;
对所述多音字表示向量和所述词级特征表示向量进行基于注意力机制的拼接处理,得到目标向量;
通过预置的线性层,计算所述目标向量的目标拼音概率,并根据所述目标拼音概率确定所述目标多音字的目标发音。
可选的,在本发明第一方面的第一种实现方式中,所述对所述待处理中文语句进行分词处理得到目标分词,并根据所述目标分词将所述字表示向量集转换为词级特征表示向量,包括:
对所述待处理中文语句进行分词处理得到目标分词;
根据所述目标分词对所述字表示向量集进行划分,得到每个词的表示向量组;
通过预置的混合池化层,将所述每个词的表示向量组进行混合池化,得到词级特征表示向量。
可选的,在本发明第一方面的第二种实现方式中,所述对所述多音字表示向量和所述词级特征表示向量进行基于注意力机制的拼接处理,得到目标向量,包括:
通过预置的前馈注意力机制,对所述多音字表示向量和所述词级特征表示向量进行注意力计算,得到注意力向量;
将所述注意力向量与所述多音字表示向量进行拼接,得到目标向量。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置的线性层,计算所述目标向量的目标拼音概率,并根据所述目标拼音概率确定所述目标多音字的目标发音,包括:
通过预置的线性层,计算所述目标向量基于每一个拼音的概率,得到多音字拼音概率值集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011432585.6/2.html,转载请声明来源钻瓜专利网。