[发明专利]基于时长预测模型的发音时长预测方法及相关设备在审
申请号: | 202111139862.9 | 申请日: | 2021-09-28 |
公开(公告)号: | CN113870826A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 郭洋;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 模型 发音 方法 相关 设备 | ||
1.一种基于时长预测模型的发音时长预测方法,其特征在于,所述基于时长预测模型的发音时长预测方法包括:
获取智能诊疗系统产生的医疗文本数据以及对应的音频序列,并将所述医疗文本数据转换为音素发音序列,其中,所述音素发音序列包含多个音素;
将所述音素发音序列输入至预设的时长预测模型中,对所述音素发音序列中各音素进行向量化处理,得到音素向量序列;
计算所述音素向量序列中各音素向量对应的隐性特征向量,并根据所述隐性特征向量,计算各所述音素的多维高斯分布;
将所述音频序列中各音频帧和所述多维高斯分布中各音素进行对齐处理,得到对齐关系,并根据所述对齐关系,确定各所述音素的发音时长。
2.根据权利要求1所述的基于时长预测模型的发音时长预测方法,其特征在于,所述将所述音素发音序列输入至预设的时长预测模型中,对所述音素发音序列中各音素进行向量化处理,得到音素向量序列包括:
将所述音素发音序列按照预设的窗长和步长转化为固定维数的特征维度序列;
将所述特征维度序列输入至预设的时长预测模型的音素向量层中,并提取所述特征维度序列中各音素的特征维度以及序列位置序号;
根据所述特征维度和序列位置序号,对所述特征维度序列中各音素进行编码,得到多个编码值;
对各所述编码值进行向量化处理,得到多个音素向量,并根据各所述音素向量生成音素向量序列。
3.根据权利要求2所述的基于时长预测模型的发音时长预测方法,其特征在于,所述计算所述音素向量序列中各音素向量对应的隐性特征向量,并根据所述隐性特征向量,计算各所述音素的多维高斯分布包括:
根据所述时长预测模型中预设的多头注意力机制,计算所述音素向量序列中各音素向量对应的隐性特征向量,其中,所述多头注意力机制为选择多个特定输入信息的注意力机制;
对所述隐性特征向量进行高斯处理,得到高斯分布;
计算所述高斯分布的均值和方差,并根据所述均值和方差,生成均值向量和方差对角矩阵;
对所述均值向量和所述方差对角矩阵构建函数关系,生成多维高斯函数;
根据预设的双向长短期记忆网络和多维高斯函数,计算各所述音素的多维高斯分布。
4.根据权利要求3所述的基于时长预测模型的发音时长预测方法,其特征在于,所述将所述音频序列中各音频帧和所述多维高斯分布中各音素进行对齐处理,得到对齐关系,并根据所述对齐关系,确定各所述音素的发音时长包括:
计算所述音频序列中各音频帧与所述多维高斯分布中各音素的对齐概率;
将所述音频序列中各音频帧和所述多维高斯分布中各音素按照所述对齐概率进行对齐处理,得到对齐关系;
根据所述对齐关系,查找所述音频序列中各所述音素的开始位置和结束位置;
根据各所述音素对应的开始位置和结束位置确定各所述音素的发音时长。
5.根据权利要求3所述的基于时长预测模型的发音时长预测方法,其特征在于,所述将所述音频序列中各音频帧和所述多维高斯分布中各音素进行对齐处理,得到对齐关系,并根据所述对齐关系,确定各所述音素的发音时长包括:
根据预设的短时傅里叶变换规则,计算所述音频序列的幅度谱;
将所述幅度谱输入至预设的梅尔滤波器组中,将所述幅度谱转换为梅尔谱帧序列;
提取所述梅尔谱帧序列中各梅尔谱帧;
将各所述梅尔谱帧与所述多维高斯分布中各音素进行对齐处理,得到对齐关系,并根据所述对齐关系,确定各所述音素的发音时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111139862.9/1.html,转载请声明来源钻瓜专利网。