[发明专利]一种基于特定人物音色的语音实时合成方法在审
申请号: | 202211292085.6 | 申请日: | 2022-10-20 |
公开(公告)号: | CN115691465A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 郑义恒;肖永强 | 申请(专利权)人: | 厦门靠谱云股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 361000 福建省厦门市湖里*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 人物 音色 语音 实时 合成 方法 | ||
本发明涉及一种基于特定人物音色的语音实时合成方法。该方法以实时合成、音色拟人度高、训练样本要求低为独创点,优化模型的构建效率与使用性能。该方法实现阶段包括:数据预处理阶段、数据向量化阶段、模型构建阶段、模型训练阶段、模型推理阶段。本发明涉及的技术包括:人物音色辨别模型、深度门控循环神经网络、注意力机制。本发明中所提出的技术方案在有限的计算性能与开发周期内,使得声音模型同时具备拟人的语音流畅度与高度拟人的发音风格。
技术领域
本发明涉及计算机软件技术领域,特别涉及一种基于特定人物音色的语音实时合成方法。
背景技术
文本到语音转换技术作为语音信号处理领域的核心研究内容,对该技术的研究与应用是学界与业界的关注重点。
文本到语音技术起源于二十世纪七十年代末期,最初的实现方式是基于语言规则拼接声音波形片段,以达到合成一段人声音频的目的。在英文语音合成中,由麻省理工学院研发的DECTalk可以发出7种不同音色的语音,在发音速度增加到每分钟350词时,也可以保持清晰、自然的效果。在中文语音合成中,日本Matsushita电子公司基于DECTalk系统的技术也开发了可以将汉语文本转换成口语音频的系统。用波形拼接技术来合成语音时,能很好地保持原始拼接单元的语音声学特征,因而在有限词汇语音的合成中得到了广泛的应用,例如公共汽车报站器,以及用于特定领域文本语音转换系统中。但是,这种实现方式的缺陷在于需要人工处理大量的语料数据,并基于特定语言的知识背景制定语法及发音规则,同时难以通过上下文控制声音的韵律,导致生成人声的自然程度较低。
与此同时,基于声道模型的参数合成方法也在发展,根据声道特性的描述方式不同,形成了线性预测合成方法和共振峰合成方法两条技术路线。随着技术的发展,基于统计模型的参数化声音合成技术开始崭露头角,隐马尔可夫模型与高斯混合模型走到了台前,可实现文本语音转换系统的自动训练与构建,所以又被称为可训练的语音合成。其基本技术思想是对输入的语音数据进行声学参数的建模,并以训练得到的统计模型为基础构建相应的合成系统。
进入二十一世纪后,基于深度学习理论的语音处理技术得到了全面突破,性能显著提高,相应的研究工作在模型设计的细化、参数提取和优化,以及系统的自适应技术等方面取得了一些关键性的进展。端到端的深度学习语音合成技术是基于传统参数化模型的合成思路进行构建的,理论上可以合成高度拟人的语音,但由于过于深度学习模型参数量过大,导致需要大量训练数据才能使模型收敛,使得深度学习方案往往难以落地。
发明内容
本发明的目的在于提供一种基于特定人物音色的语音实时合成方法,能够在给定特定人物的语音数据样本并且计算资源有限的情况下,基于给定的文本实时生成与特定人物音色相符的语音音频的模型,本方法以语音风格量化技术、语音合成技术为切入点,基于说话人物识别技术中对特定人物音色的建模方法与频域信息波形重建方法,对模型效率与性能进行优化。
为实现上述目的,本发明的技术方案是:一种基于特定人物音色的语音实时合成方法,包括:
数据预处理阶段,对原始音频数据进行规范化操作;
数据向量化阶段,将中文文本数据转化为拼音表示后,再转化为拼音所对应的向量编码序列,并使用带通滤波器组对文本对应的音频进行滑动窗口滤波,得到音频对应的频谱;
模型构建阶段,构建用于特定人物声音合成的神经网络模型,模型分为三个部分进行实现,分别是音色辨别模型、频谱合成模型、音频重建模型;
模型训练阶段,对音色辨别模型、频谱合成模型、音频重建模型分别进行拟合;音色辨别模型,采用说话人辨别的任务目标对音色辨别模型进行拟合;频谱合成模型,基于中文文本与音色辨别模型的输出的音色向量,对频谱合成模型进行拟合;音频重建模型,基于真实中文音频以及音频对应的带通滤波频谱对音频重建模型进行拟合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门靠谱云股份有限公司,未经厦门靠谱云股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211292085.6/2.html,转载请声明来源钻瓜专利网。