[发明专利]一种基于特定人物音色的语音实时合成方法在审
申请号: | 202211292085.6 | 申请日: | 2022-10-20 |
公开(公告)号: | CN115691465A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 郑义恒;肖永强 | 申请(专利权)人: | 厦门靠谱云股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 361000 福建省厦门市湖里*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 人物 音色 语音 实时 合成 方法 | ||
1.一种基于特定人物音色的语音实时合成方法,其特征在于,包括:
数据预处理阶段,对原始音频数据进行规范化操作;
数据向量化阶段,将中文文本数据转化为拼音表示后,再转化为拼音所对应的向量编码序列,并使用带通滤波器组对文本对应的音频进行滑动窗口滤波,得到音频对应的频谱;
模型构建阶段,构建用于特定人物声音合成的神经网络模型,模型分为三个部分进行实现,分别是音色辨别模型、频谱合成模型、音频重建模型;
模型训练阶段,对音色辨别模型、频谱合成模型、音频重建模型分别进行拟合;音色辨别模型,采用说话人辨别的任务目标对音色辨别模型进行拟合;频谱合成模型,基于中文文本与音色辨别模型的输出的音色向量,对频谱合成模型进行拟合;音频重建模型,基于真实中文音频以及音频对应的带通滤波频谱对音频重建模型进行拟合;
模型推理阶段,将中文文本与特定人物的音色向量输入频谱合成模型,再将输出频谱输入到音频重建模型,最终合成出特定人物音色的语音片段。
2.根据权利要求1所述的一种基于特定人物音色的语音实时合成方法,其特征在于,所述数据预处理阶段的具体实现方式为:
原始音频采用真人录音,所述对原始音频数据进行规范化操作,即:第一步,对原始音频数据的振幅进行标准化处理,保证数据集中音频的人声处于同一响度水平;第二步,选用带通滤波器对背景与电流噪声频段进行滤波抑制噪声信号;第三步,对音频信号进行窗口积分操作以计算能量谱,通过窗口内的信号能量划分空白音频片段,并对片段进行裁剪;第四步,对音频数据集内的音频片段在人声信号频段重新采样,使得数据进一步规范化,并去除超出人声频段的高频信号。
3.根据权利要求1所述的一种基于特定人物音色的语音实时合成方法,其特征在于,所述将中文文本数据转化为拼音表示后,再转化为拼音所对应的向量编码序列的具体实现方式,即:第一步,将中文文本数据转化为拼音表示;第二步,将拼音表示转化为拼音字典中所对应的向量编码;第三步,将拼音向量编码单元组合为向量序列。
4.根据权利要求1所述的一种基于特定人物音色的语音实时合成方法,其特征在于,所述使用带通滤波器组对文本对应的音频进行滑动窗口滤波,得到音频对应的频谱的具体实现方式,即:原始音频数据经过预处理后,使用非线性滤波器组对音频进行窗口滤波,得到音频对应的非线性频谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门靠谱云股份有限公司,未经厦门靠谱云股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211292085.6/1.html,转载请声明来源钻瓜专利网。