[发明专利]一种基于自注意力机制的中文普通话字音转换方法有效
申请号: | 201911395278.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111145718B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 张鹏远;尚增强;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10;G10L25/30;G06K9/62;G06N3/04 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 中文 普通话 字音 转换 方法 | ||
本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。
技术领域
本发明涉及语音合成领域,尤其涉及一种基于自注意力机制的中文普通话字音转换方法。
背景技术
TTS技术广泛应用于电子图书、语音助手、车载导航、语音客服等产品中。中文语音合成中,无论是参数式还是序列到序列的模型,音素级别的建模单元足够紧凑进而能够得到有效的训练。而字音转换的作用就是将汉字到发音的映射。
字音转换的核心在于多音字消歧和变调,在一些情况中,发音由语义所决定。比如“还”表示归换时读“huan2”如“归还”,表示仍然时读“hai2”如“还是”。还有一部分的变调声调环境所造成的,比如两个连续的三声连读时,前一个通常读作2声,例如“美好”读作“mei2hao3”;“一”和“不”在不同的声调环境中读不同的声调。最早的多音字消歧时基于手工规则的方法,由语言专家总结多音字消岐的规律,并将这些规律写成计算机形式。然而,随着规则的增加,难以避免出现相互冲突的情况。随着语料库积累,很多研究者尝试使用统计的方法,决策树和最大熵模型都曾用来进行多音字消岐的任务。然而,统计的方法需要手动设计特征,这些特征工程需要专业的语言学知识。
深度神经网络常用来提取高维特征表示,简化了特征工程的难度。RNN结构的模型已经在字音转换任务中体现出比较好的性能,然而因其序列化的结构导致计算复杂度提高,并且难以并行计算。而且,传统的字音转换系统时多音字消岐和变调分别属于不同功能模块,需要进行的两种模块的级联。
发明内容
本发明的目的旨在利用自注意力模型高度并行的特点解决计算困难的问题,同时实现字符串到变调后发音的端到端的直接预测。通过引入一个结合多任务学习和CRF的相对位置编码自注意力模型框架,包括词性、发音属性(声母、韵母、声调)的子任务,将传统字音转换中多音字消岐和变调模块融为一体。
本发明为解决上述技术问题采用的技术方案为,一方面提供一种中文普通话字音转换方法,所述字音转换通过神经网络模型,所述神经网络模型包括嵌入层、自注意力层、分类层,所述方法包括:
将中文普通话语句输入所述神经网络模型的嵌入层,所述嵌入层将所述中文普通话语句中的汉字映射为字嵌入向量;
所述自注意力层利用自注意机制将所述字嵌入向量映射为高维向量;
所述分类层根据所述高维向量,确定所述汉字的普通话发音,并将其输出;或者,
所述分类层根据所述高维向量,对所述汉字的声母、韵母、声调分别进行分类且结合所述分类结果,确定所述汉字的普通话发音,并将其输出;
所述神经网络模型由训练得到。
优选地,采用条件随机场对所述声调进行分类。
具体地,所述采用条件随机场对所述声调进行分类,通过在分类层中添加CRF层进行,所述分类的数学表示式为:
其中,X为声调后验概率序列,表示第t个字符在第i个标签上的后验概率,Aij为转移权重(CRF层引入转移权重Aij来建模相邻时间步长的标签转移概率),XT为句子在所有可能路径上的打分(式子中考虑转移概率和后验概率的和),P是后验概率。
优选地,所述利用自注意机制还包括,根据汉字在语句的相对位置信息计算自注意力权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395278.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于维度切片的变量分类方法、装置、设备及介质
- 下一篇:摄像光学镜头