[发明专利]电子装置、语音合成方法和计算机可读存储介质有效
申请号: | 201710874876.2 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107564511B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 梁浩;程宁;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G10L17/04;G10L25/24 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种电子装置、语音合成方法和存储介质,该方法包括:在收到待合成文本后,将该待合成文本中的语句及词组拆分成单字,根据预先确定的单字、发音时长、发音基频三者之间的映射关系,确定各个单字对应的发音时长和发音基频,根据预先确定的发音字典将各个单字拆分成预设类型语音特征;根据各个单字的语音特征和发音时长,提取出该待合成文本对应的预设类型声学特征向量;将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中,识别出该待合成文本对应的声纹特征;根据该识别出的声纹特征和各个单字的发音基频,生成该待合成文本对应的语音。本发明技术方案使语音合成结果的精度高,自然度和清晰度较佳。 | ||
搜索关键词: | 电子 装置 语音 合成 方法 计算机 可读 存储 介质 | ||
【主权项】:
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音合成系统,所述语音合成系统被所述处理器执行时实现如下步骤:A、在收到待进行语音合成的待合成文本后,将该待合成文本中的语句及词组拆分成单字,根据预先确定的单字、发音时长、发音基频三者之间的映射关系,确定各个单字对应的发音时长和发音基频,根据预先确定的发音字典将各个单字拆分成预设类型语音特征,确定出该待合成文本对应的各个单字的语音特征;B、根据该待合成文本对应的各个单字的语音特征和发音时长,提取出该待合成文本对应的预设类型声学特征向量;C、将该待合成文本对应的预设类型声学特征向量输入到训练好的预设类型识别模型中,识别出该待合成文本对应的声纹特征,所述预设类型识别模型的训练过程包括:C1、获取预设数量的训练文本和对应的训练语音;C2、将各个训练文本中的语句及词组拆分成单字,根据预先确定的发音字典将各个单字拆分成预设类型语音特征,确定出各个训练文本对应的各个单字的语音特征;C3、根据预先确定的单字和发音时长之间的映射关系,确定各个单字对应的发音时长,根据各个训练文本对应的各个单字的语音特征和发音时长,提取出各个训练文本对应的预设类型声学特征向量;C4、利用预设滤波器对各个训练语音进行处理以提取出各个训练语音的预设类型声纹特征,根据训练文本和训练语音的映射关系,将各个训练文本的声学特征向量与对应的训练语音的声纹特征进行关联,得到声学特征向量与声纹特征的关联数据;C5、将所述关联数据分为第一百分比的训练集和第二百分比的验证集,所述第一百分比和第二百分比之和小于或者等于100%;C6、利用训练集中的声学特征向量与声纹特征的关联数据对所述预设类型识别模型进行训练,并在训练完成后利用验证集对训练的所述预设类型识别模型的准确率进行验证;C7、若准确率大于预设阈值,则模型训练结束;C8、若准确率小于或者等于预设阈值,则增加训练文本和对应的训练语音的数量,并基于增加后的训练文本和对应的训练语音重新执行上述步骤C2、C3、C4、C5和C6;D、根据该待合成文本对应的声纹特征和各个单字的发音基频,生成该待合成文本对应的语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710874876.2/,转载请声明来源钻瓜专利网。