[发明专利]基于时长预测模型的发音时长预测方法及相关设备在审
申请号: | 202111139862.9 | 申请日: | 2021-09-28 |
公开(公告)号: | CN113870826A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 郭洋;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 模型 发音 方法 相关 设备 | ||
本发明涉及人工智能领域,公开了一种基于时长预测模型的发音时长预测方法及相关设备,该方法主要应用于智能诊疗系统,包括:获取智能诊疗系统产生的医疗文本数据以及对应的音频序列,将医疗文本数据转换为音素发音序列,并输入至预设的时长预测模型中,对音素发音序列中各音素进行向量化处理,并计算各音素向量对应的隐性特征向量以及多维高斯分布;将音频序列中各音频帧和多维高斯分布中各音素进行对齐处理,确定各音素的发音时长。本发明通过预置时长预测模型中的双向长短期记忆神经网络结合上下文信息进行发音时长预测,提高了预测的准确度。此外,本发明还涉及区块链领域,医疗文本数据和音频序列可存储于区块链中。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于时长预测模型的发音时长预测方法及相关设备。
背景技术
随着互联网的发展,智能语音技术也随之得到了发展,并逐渐应用于导航、语音播报、语音交互等场景中,还可以应用于智能诊疗、线上问诊等数字医疗场景中,给用户的生活带来了极大的方便,语音合成是智能语音技术中较重要的处理过程,但在相关技术中,语音合成的效果较差,不能实现对声音的精准合成,进而导致所合成的语音不够真实。准确的音素时长预测一直是语音合成至关重要的一步,音素时长模型能够刻画出语音中的抑扬顿挫与轻重缓急,进而提高合成语音的表现力和自然度。
现有的对于音素发音时长的预测主要是基于模型进行预测,但是不能充分考虑上下文信息,且其时长预测结果只考虑多维高斯分布的均值,导致发音时长预测的准确度低。
发明内容
本发明的主要目的在于解决现有技术中发音时长预测的准确度低的技术问题。
本发明第一方面提供了一种基于时长预测模型的发音时长预测方法,所述基于时长预测模型的发音时长预测方法包括:获取智能诊疗系统产生的医疗文本数据以及对应的音频序列,并将所述医疗文本数据转换为音素发音序列,其中,所述音素发音序列包含多个音素;将所述音素发音序列输入至预设的时长预测模型中,对所述音素发音序列中各音素进行向量化处理,得到音素向量序列;计算所述音素向量序列中各音素向量对应的隐性特征向量,并根据所述隐性特征向量,计算各所述音素的多维高斯分布;将所述音频序列中各音频帧和所述多维高斯分布中各音素进行对齐处理,得到对齐关系,并根据所述对齐关系,确定各所述音素的发音时长。
可选的,在本发明的第一方面的第一种实现方式中,所述将所述音素发音序列输入至预设的时长预测模型中,对所述音素发音序列中各音素进行向量化处理,得到音素向量序列包括:将所述音素发音序列按照预设的窗长和步长转化为固定维数的特征维度序列;将所述特征维度序列输入至预设的时长预测模型的音素向量层中,并提取所述特征维度序列中各音素的特征维度以及序列位置序号;根据所述特征维度和序列位置序号,对所述特征维度序列中各音素进行编码,得到多个编码值;对各所述编码值进行向量化处理,得到多个音素向量,并根据各所述音素向量生成音素向量序列。
可选的,在本发明的第一方面的第二种实现方式中,所述计算所述音素向量序列中各音素向量对应的隐性特征向量,并根据所述隐性特征向量,计算各所述音素的多维高斯分布包括:根据所述时长预测模型中预设的多头注意力机制,计算所述音素向量序列中各音素向量对应的隐性特征向量,其中,所述多头注意力机制为选择多个特定输入信息的注意力机制;对所述隐性特征向量进行高斯处理,得到高斯分布;计算所述高斯分布的均值和方差,并根据所述均值和方差,生成均值向量和方差对角矩阵;对所述均值向量和所述方差对角矩阵构建函数关系,生成多维高斯函数;根据预设的双向长短期记忆网络和多维高斯函数,计算各所述音素的多维高斯分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111139862.9/2.html,转载请声明来源钻瓜专利网。