[发明专利]一种语音生成方法、装置、设备及存储介质在审

专利信息
申请号: 202310418107.7 申请日: 2023-04-13
公开(公告)号: CN116798402A 公开(公告)日: 2023-09-22
发明(设计)人: 方昕;胡亚军;潘嘉;高建清;刘聪;陈恩红 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G10L13/027 分类号: G10L13/027;G10L13/08;G10L25/63;G06F16/33;G06F16/332
代理公司: 北京布瑞知识产权代理有限公司 11505 代理人: 尚文文
地址: 230088 安徽省*** 国省代码: 安徽;34
权利要求书: 暂无信息 说明书: 暂无信息
摘要: 本申请提供了一种语音生成方法、装置、设备及存储介质,具体实现方案为:确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。根据本申请的技术方案,能够有效提升合成语音的准确性。
搜索关键词: 一种 语音 生成 方法 装置 设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202310418107.7/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于OpenCV的中文自然场景语音识别系统-202311004372.7
  • 门殿春;韩立群;闫劲阳;肖小娣 - 北京泰策科技有限公司
  • 2023-08-10 - 2023-10-24 - G10L13/027
  • 本发明提供了一种基于OpenCV的中文自然场景语音识别系统,包括通过视觉设备进行自然场景的图像采集,获取自然场景图像;利用OpenCV对自然场景图像进行解析处理,得到自然场景图像的中文标注文本;利用大规模中文语料对中文标注文本进行处理,提取出若干自然场景关键词并组合成自然场景关键词文本;对自然场景关键词文本进行语音合成,生成自然场景描述语音。本发明可以实现对自然场景中不同的行为、设备、环境信息等等具体的场景信息进行标注,通过关键词进行文本化解析,生成具体文本化的内容,通过文本化的内容,可以通过语音转化的方式,将文本转化为语音,从而实现自然场景的语音描述。
  • 语音合成方法、装置、电子设备及可读存储介质-202310531650.8
  • 刘莹;高莹莹;张世磊;雷怡;李函昭;谢磊 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2023-05-11 - 2023-10-20 - G10L13/027
  • 本申请提供一种语音合成方法、装置、电子设备及可读存储介质。所述方法包括:获取待合成文本的每个音频片段的情感强度,每个所述音频片段分别对应所述待合成文本的一个音节,所述情感强度是音素级的情感强度;根据所述情感强度以及声学模型,获得所述待合成文本对应的梅尔频谱;基于所述梅尔频谱生成语音。本申请的实施例,获取待合成文本的每个音频片段的情感强度,声学模型基于情感强度获得所述待合成文本对应的梅尔频谱;基于所述梅尔频谱生成语音。其中的音频频段是每个音节对应的音频片段,获得的情感强度是音素级的情感强度,实现了细粒度情感可控的语音合成,合成的语音具有的情感更加准确。
  • 一种基于语音合成的文字转语音方法及相关设备-201910298456.3
  • 赵超 - 平安科技(深圳)有限公司
  • 2019-04-15 - 2023-09-29 - G10L13/027
  • 本发明涉及语音语义领域的语音合成技术,具体涉及一种基于语音合成的文字转语音方法及相关设备,所述方法包括:接收用户的扫描请求,将用户选取的待识别文字扫描成电子文本;通过文字转语音系统将电子文本转换成语音文本,并语音提醒用户转换成功;获取用户的语音播报请求,语音播报语音文本。上述方法通过利用TextRank算法迭代计算每个词语的权重,能够快速的将整段文字快速转换成语音。
  • 多模态的语音合成方法、装置、设备及存储介质-202110738424.8
  • 张旭龙;王健宗 - 平安科技(深圳)有限公司
  • 2021-06-30 - 2023-09-29 - G10L13/027
  • 本发明涉及人工智能领域,公开了一种多模态的语音合成方法、装置、设备及存储介质,该方法包括:获取并预处理原始语音数据和原始脑电数据,得到语音数据和脑电数据;将语音数据和脑电数据输入至预设的自编码器进行变分自编码,得到隐含表征;对隐含表征进行概率计算,得到先验分布;根据预设的贝叶斯公式,对先验分布进行多模态深度表征学习,得到后验分布,并根据预设的期望‑最大值算法,对后验分布进行混合高斯处理;根据处理后的先验分布和后验分布,对隐含表征进行参数重构处理,生成情感语音。本发明通过对脑电数据和语音数据进行处理,提取情感信息以合成情感语音,提高了合成语音的自然度和人机交互的友好度。
  • 一种语音生成方法、装置、设备及存储介质-202310418107.7
  • 方昕;胡亚军;潘嘉;高建清;刘聪;陈恩红 - 科大讯飞股份有限公司
  • 2023-04-13 - 2023-09-22 - G10L13/027
  • 本申请提供了一种语音生成方法、装置、设备及存储介质,具体实现方案为:确定与第一对话内容对应的回复文本;其中,所述第一对话内容包括对话语音和/或对话语音对应的语音文本;基于所述第一对话内容和所述回复文本,生成提示信息,所述提示信息包括所述第一对话内容的情感信息;基于所述提示信息,生成与所述第一对话内容对应的回复语音,所述回复语音的情感与所述第一对话内容的情感符合预设的情感匹配关系。根据本申请的技术方案,能够有效提升合成语音的准确性。
  • 一种可合成多情感音频的语音合成模型方法-202310504543.6
  • 彭宇飞;李海滨;李勇刚;何熠 - 联通沃悦读科技文化有限公司;联通在线信息科技有限公司
  • 2023-05-06 - 2023-09-22 - G10L13/027
  • 本发明公开了一种可合成多情感音频的语音合成模型方法,涉及智能语音技术领域,包括以下步骤:处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理;调用情感识别模块对数据集进行预处理,将音频拆解成音素和情感特征文件;完整的多情感文本转语音模型和数据集处理具体分为数据集收集、无监督预处理、编码器训练和在线推理,最后获得的产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件,能够实现多情感输出,同时可模拟韵律,使效果接近真人,在处理数据时无需进行情感标注,同时以构建连续特征值谱的方式极大避免了机器标注不准的问题。
  • 音频合成模型的训练方法以及音频合成方法-202310776808.8
  • 强春雨 - 北京达佳互联信息技术有限公司
  • 2023-06-28 - 2023-09-19 - G10L13/027
  • 本公开关于一种音频合成模型的训练方法以及音频合成方法,其中,该训练方法获取训练数据,训练数据包括样本文本的样本音素特征以及样本文本的第一样本音频信息;将第一样本音频信息输入至待训练的音频合成模型中的第一音频特征提取层,得到第一样本音频信息的第一音频特征,第一音频特征提取层是音频合成模型包括的多个音频特征提取层中与样本文本的对象类型相匹配的特征提取层;基于待训练的音频合成模型、样本音素特征以及第一音频特征,得到样本文本对应的预测音频信息,继而得到训练完成的音频合成模型。通过采用本公开,可以统一提取不同的对象类型对应的音频特征以及音素特征,实现单模型输出多对象类型的音频信息。
  • 基于数字分身的个性化AI名片的交互方法及相关组件-202311018692.8
  • 彭超;董新胜;李春建 - 深圳市加推科技有限公司
  • 2023-08-14 - 2023-09-12 - G10L13/027
  • 本发明公开了基于数字分身的个性化AI名片的交互方法及相关组件。方法包括:预先构建销售的个人声音模型和数字人简介视频;当用户进入客户端平台时,通过个人声音模型输出打招呼文本的打招呼音频并进行音频播放,并在打招呼后播放数字人简介视频;当用户输入的问题文本时,对问题文本进行分析并确认对应的答案文本;通过个人声音模型输出答案文本的答案音频;通过情绪分类模型输出答案文本的情绪类别,将情绪类别对应的表情动作数据输入数字人的执行接口,使数字人执行相应的表情和动作并同步播放答案音频。本发明通过创建销售的数字化表示,模拟销售个人的声音、行为等特征,通过数字人替代销售对用户进行互动,提高了与用户的交互性。
  • 基于预训练语言模型的语音生成方法、装置、设备及介质-202310634393.0
  • 陶建华;任勇;易江燕;汪涛 - 中国科学院自动化研究所
  • 2023-05-31 - 2023-09-01 - G10L13/027
  • 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。
  • 一种语音合成方法、装置、设备及介质-202310758743.4
  • 姚红艳;苏方兴;季铖 - 中国银行股份有限公司
  • 2023-06-26 - 2023-08-29 - G10L13/027
  • 本申请公开了一种语音合成方法、装置、设备及介质,涉及大数据领域或金融领域。该方法包括:获取语音数据集;对语音数据集进行预处理,以获取训练数据集;根据训练数据集,训练语音合成模型;获取合成数据;将合成数据输入至语音合成模型中,以执行语音合成。由此,通过训练数据集训练波网网络模型或塔科特龙网络模型,可以生成语音合成模型,使得该语音生成模型能够合成语音自然度、情感度高的语音,提升用户的语音合成体验。
  • 一种语音合成方法、装置、电子设备及介质-202310677375.0
  • 詹皓粤;余心远;林悦 - 网易(杭州)网络有限公司
  • 2023-06-08 - 2023-08-04 - G10L13/027
  • 本申请提供了本申请实施例中提供一种语音合成方法、装置、电子设备及介质,所述方法获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,从而支持多语言、任意情绪、多风格扩展的情感语音合成。
  • 基于人设特征的合成音频识别方法、装置、设备及介质-202310386238.1
  • 温正棋;陆逸 - 中科极限元(杭州)智能科技股份有限公司
  • 2023-04-12 - 2023-08-04 - G10L13/027
  • 本公开实施例中提供了一种基于人设特征的合成音频识别方法、装置、设备及介质,方法包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。本发明能够提高对合成音频的识别准确性。
  • 用户会话语音情感引导式应答语音合成方法及系统-202310433912.7
  • 綦科 - 广州大学
  • 2023-04-20 - 2023-07-28 - G10L13/027
  • 本说明书实施例提供了一种用户会话语音情感引导式应答语音合成方法系统,其中,方法包括:通过用户输入的语音提取用户语音情感特征及用户文本主题背景情感特征;获取用户个性化特征;根据用户语音情感特征、用户文本主题背景情感特征、用户个性化特征,制定待合成文本情感策略及待合成语音情感策略;并生成符合用户会话语境情感的待合成文本;将符合用户会话语境情感的待合成文本合成符合用户会话语境情感的合成情感语音。本发明根据用户语音情感、用户文本主题背景情感和用户个性化特征合成符合用户会话语境情感的应答文本和应答语音,语音文本及语音合成效果更加接近真人情感化表达,有效提高了人机交互个性化的自然交互体验。
  • 一种文字转语音的方法及装置-202310408445.2
  • 任宝永 - 北京灵动新程信息科技有限公司
  • 2023-04-17 - 2023-07-25 - G10L13/027
  • 一种文字转语音的方法及装置,涉及信息处理领域。其中,方法包括:获取财经新闻的文本信息,所述文本信息包括第一文本信息;对所述第一文本信息使用预训练的语言模型和生成模型得到第一文本摘要;生成所述第一文本摘要对应的第一音频文件;向用户播放所述第一音频文件。实施本申请提供的技术方案,改善了财经新闻在播放时,只是通篇逐字播放该则新闻,用户不能快速了解新闻的主要内容,即播放效率低的问题。
  • 结合情感强度的语音合成方法、电子设备及可读存储介质-202310507588.9
  • 张旭龙;王健宗;程宁;唐浩彬 - 平安科技(深圳)有限公司
  • 2023-05-06 - 2023-07-25 - G10L13/027
  • 本申请涉及人工智能技术领域,提供了一种结合情感强度的语音合成方法、装置、电子设备及计算机可读存储介质,方法包括:获取语音信号以及与语音信号对应的合成文本;对合成文本进行检索处理得到音素序列以及音符音高特征;将文本特征输入至音高编码模型进行转换处理得到文本音高信息;将第二音高特征信息和文本音高信息输入至残差音高预测网络模型进行第一迭代预测处理,得到有效音高信息;以及将第二持续时间信息输入至预训练的残差持续时间预测网络模型进行第二迭代预测处理,得到有效持续时间;对合成音高信息进行解码处理得到合成语音梅尔频谱图。通过上述技术方案能够在语音合成的过程中兼备情感表达,使得语音合成的效果更佳。
  • 目标语言语音合成方法和装置、电子设备、存储介质-202310382588.0
  • 张旭龙;王健宗;朱可欣 - 平安科技(深圳)有限公司
  • 2023-04-07 - 2023-07-21 - G10L13/027
  • 本发明实施例提供目标语言语音合成方法和装置、电子设备、存储介质,涉及人工智能技术领域。该方法包括:将获取源语言文本,输入非自回归语言翻译模型得到目标语言翻译文本,然后进行分词、韵律预测、音素转换和语音合成得到目标语言语音数据。本实施例对输入的源语言文本进行方言的语法用词调整,将其翻译成语音相似的目标语言文本,然后进行语音合成,得到目标语言发音的语音数据。同时非自回归语言翻译模型利用并行生成解码方式,在翻译的过程中同时输出目标语言翻译文本中所有的词,在保证翻译准确性的前提下提升方言翻译速度,扩展方言翻译的应用场景。
  • 虚拟声音合成方法、装置及相关设备-202211392185.6
  • 刘利娟;潘嘉;刘聪;刘庆峰 - 科大讯飞股份有限公司
  • 2022-11-08 - 2023-07-21 - G10L13/027
  • 本申请公开了一种虚拟声音合成方法、装置及相关设备,本申请预先采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,得到映射后的平滑连续的隐层空间作为音色特征空间,目标生成模型可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,也即本申请得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的虚拟音色特征向量是连续的,基于待合成文本的文本特征向量及采样的虚拟音色特征向量进行虚拟声音合成。相比于现有的不连续的说话人编码向量,本申请基于平滑连续的音色特征空间采样得到的虚拟音色特征向量进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。
  • 语音编辑方法、装置、存储介质及电子装置-202310299825.7
  • 张海桐 - 网易(杭州)网络有限公司
  • 2023-03-20 - 2023-07-14 - G10L13/027
  • 本申请公开了一种语音编辑方法、装置、存储介质及电子装置。该方法包括:获取待处理的原始音频和目标文本,其中,目标文本用于确定待编辑至原始音频的文本内容;对原始音频中的待编辑部分音频进行语音掩码,得到第一掩码后音频;对目标文本和第一掩码后音频进行语音编辑,得到目标音频。本申请解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。
  • 一种有声书的制作方法、制作装置以及存储介质-202310312863.1
  • 徐东 - 腾讯音乐娱乐科技(深圳)有限公司
  • 2023-03-28 - 2023-07-07 - G10L13/027
  • 本申请实施例公开了一种有声书的制作方法、制作装置以及存储介质,用于音频技术领域。本申请实施例方法包括:获取有声书对应的文本;确定文本中与角色相关以及与场景相关的目标句子;根据目标句子的角色信息对应的音频特征对目标句子进行有声化处理,得到与音频特征相匹配的角色朗读声音;根据目标句子的场景信息得到与场景信息相匹配的场景音效;确定场景信息在目标句子中的句子位置,并在角色朗读声音对应于句子位置的音频段中加入场景音效,得到目标句子对应的目标音频。通过在目标句子的角色朗读声音中加入对应的场景音效,使得目标句子的音频中不仅包含角色朗读声音,还包含场景音效,提高了有声书的音频听觉效果。
  • 一种自监督模型的舌部超声图像合成语音方法-202310260321.4
  • 郭师峰;任伟民;李叶海;吴新宇;冯伟 - 中国科学院深圳先进技术研究院
  • 2023-03-07 - 2023-07-07 - G10L13/027
  • 本案涉及一种自监督模型的舌部超声图像合成语音方法,属于电子信息技术领域。本案旨在通过深度学习技术,直接通过超声成像方法找出人说话时舌头运动的特征,建立超声舌部图像与语音之间的映射关系,从而实现端到端的语音合成。该方法不易受环境影响,保密性较强。针对训练时的需要监督数据多,模型收敛难度大的问题,采用一种自监督的学习框架,它可以在训练阶段掩盖部分视频或音频的输入,并预测自动发现和迭代细化的多模态隐藏单元,增强模型的泛化能力,适当降低使用的训练数据,并让模型更容易收敛。
  • 基于diffusion的语音合成方法、装置、设备、存储介质-202310394113.3
  • 郭洋;王健宗 - 平安科技(深圳)有限公司
  • 2023-04-07 - 2023-06-30 - G10L13/027
  • 本申请提供了一种基于diffusion的语音合成方法、装置、设备、存储介质,方法包括:将获取到的目标语句输入至预设的声学模型进行声学特征提取,得到梅尔频谱;获取预先训练好的包括全连接层、第一卷积层、第二卷积层和残差块的diffusion声码器;将预设时间步长输入至全连接层,得到第一中间数据;将与目标语句对应的目标音频和梅尔频谱输入至第一卷积层进行卷积计算,得到第二中间数据;将第一中间数据、第二中间数据和梅尔频谱进行相加处理,得到第三中间数据;将第三中间数据输入至残差块,得到第四中间数据;将第四中间数据输入至第二卷积层进行卷积计算,得到目标合成语音。本申请通过引入diffusion声码器降低了用于模型训练的参数量,从而提高了语音合成的效率。
  • 一种基于语义保留的跨视听信息转化方法-202110140393.6
  • 袁媛;宁海龙 - 西北工业大学
  • 2021-02-02 - 2023-06-30 - G10L13/027
  • 本发明公开了一种基于语义保留的跨视听信息转化方法,将视听之间的信息转化视为一个低维空间的表达相似性学习问题,通过提取图像的语义特征,在低维空间实现特征的跨模态转化,最终将低维跨模态特征映射为基于人类语言的声音波形。本发明解决了现有视觉到听觉的跨模态信息转化方法对于非约束环境下准确生成基于人类语言的声音波形的局限性问题。针对非约束环境,生成基于人类语言的声音波形,更加符合实际情况。
  • 一种语音合成方法、装置-202310364584.X
  • 钟雨崎;艾国;杨作兴 - 北京边锋信息技术有限公司
  • 2023-04-07 - 2023-06-30 - G10L13/027
  • 本申请公开了一种语音合成方法、装置,包括:获取目标描述文本,目标描述文本包括:设定的至少一个目标控制信息,利用训练后的第一语音合成模型,按照目标描述文本,生成符合目标控制信息的目标合成语音,用于训练第一语音合成模型的第一训练数据按照至少如下方式之一构建:方式一,基于样本语音以及其样本控制信息,构建第一训练数据,方式二,利用每类样本控制信息对应的训练后的第二语音合成模型,按照第二样本描述文本,生成第一样本合成语音,方式三,利用训练后的音色转换模型,按照输入该模型的第三样本描述文本,生成第二样本合成语音,以构建第一训练数据。本申请改变了提高了语音合成的可控性和便利性,降低了样本语音数据采集的要求。
  • 语音合成方法、装置、计算机设备及存储介质-202310383438.1
  • 郭洋;王健宗 - 平安科技(深圳)有限公司
  • 2023-04-06 - 2023-06-27 - G10L13/027
  • 本发明涉及语音合成领域,公开了一种语音合成方法、装置、计算机设备及存储介质,其方法通过获取待合成文本的文本特征序列,将文本特征序列输入预先训练的编码器进行编码,获得编码序列;将编码序列输入预先训练的注意力网络进行计算,获得注意力向量和注意力上下文向量;将注意力向量和注意力上下文向量输入预先训练的解码器进行解码,获得解码输出序列;将多个解码输出序列输入后滤波网络进行计算,生成语音梅尔谱;对语音梅尔谱进行波谱转换,获得待合成文本对应的合成语音。本发明语音合成时通过后滤波网络优化逐帧输出,在保证语音合成质量的同时实现流式语音合成,网络结构简单,参数量少,计算量小,时延低,应用场景广。
  • 一种语音合成方法、装置、电子设备及存储介质-202211516712.X
  • 樊冯飞;姚树杰;赵言 - 鼎富新动力(北京)智能科技有限公司
  • 2022-11-29 - 2023-06-23 - G10L13/027
  • 本申请提供一种语音合成方法、装置、电子设备及存储介质,其中语音合成方法包括:获取目标说话人训练数据,并提取目标说话人音色特征;在预训练数据中筛选与目标说话人的相似说话人音色特征;将训练好的预训练语音合成模型的模型参数加载至finetune语音合成模型;采用相似说话人音色特征与目标说话人音色特征共同训练finetune语音合成模型;将待合成文本输入训练好的finetune语音合成模型进行语音合成任务。通过预选构建的预训练模型,通过finetune的方式对预训练模型进行微调,以满足语音合成任务的及时性需求,极大提升了个性化语音合成模型的训练效率,进而提升了个性化语音合成任务的整体效率。
  • 一种TTS音频异常检测方法、装置、计算机设备及存储介质-202310151771.X
  • 黄韬;缪陈峰;陈婷;陈闽川;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-02-10 - 2023-05-26 - G10L13/027
  • 本发明公开了一种TTS音频异常检测方法、装置、计算机设备及存储介质。所述方法包括:获取待检测的TTS音频文件以及合成所述TTS音频文件的原始文本文件,并将所述原始文本文件转换为对应的音素文件;采用音素长度预测算法预测所述音素文件的音频时长;计算所述音素文件的音频时长与TTS音频文件的实际时长之间的差值,并判断所述差值是否超过预设的长度阈值,如果超过所述长度阈值,则判定所述待检测的TTS音频文件为异常音频文件;如果不超过所述长度阈值,利用语音识别算法对所述TTS音频文件进行语速、音量检测。本发明可以提前筛选出存在漏字、多字或长噪声等因素的异常音频,减少进入ASR检测和人工测听等环节的音频数量,从而降低检测成本。
  • 一种语音合成方法和装置-202310078716.2
  • 樊冯飞;姚树杰;赵言;先永春 - 鼎富新动力(北京)智能科技有限公司
  • 2023-01-17 - 2023-05-12 - G10L13/027
  • 本申请提供了一种语音合成方法和装置,能够提升合成的语音的拟人化程度,使得合成的语音情感丰富。该方法包括:获取与训练文本对应的训练音频及标准的梅尔频谱;根据训练文本和训练音频,提取训练音频中每个音素的标准的语音特征;根据训练文本和训练音频,确定训练文本的情感标签序列,情感标签序列包含的数字表征训练文本中相应位置的文字是否用于表达情感;根据标准的梅尔频谱、标准的语音特征、情感标签序列、训练文本对应的音素标识序列和说话人的标识,确定训练数据;基于训练数据训练语音合成模型,使得语音合成模型学习到每个音素的语音特征,以及每个文字的情感特征;根据目标文本和训练好的语音合成模型,确定目标文本对应的合成语音。
  • 韵律标注模型、韵律预测模型的训练方法及相关设备-202310154352.1
  • 陈婷;朱清影;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-02-10 - 2023-05-09 - G10L13/027
  • 本申请实施例提供的韵律标注模型的训练方法及相关设备,将文本序列输入至文本编码器,输出文本编码向量;将音素序列输入至所述音素编码器,输出音素编码向量;将梅尔谱输入至频谱编码器,输出频谱编码向量;将文本编码向量、音素编码向量和频谱编码向量进行融合处理;将融合特征向量输入至自注意力网络,输出预测韵律标签序列;通过上述方式,根据音频数据提取多模态的数据作为输入,为韵律标注任务提供了更丰富的韵律信息,训练得到的韵律标注模型标注精度高;本申请实施例提供的韵律预测模型的训练方法及相关设备,利用训练好的韵律标注模型进行样本增强,有利于简化韵律预测模型的结构和输入数据,训练得到的韵律预测模型韵律预测效果好。
  • 一种语音合成方法和合成系统-202211710199.8
  • 韩太军;吴杨;马宇峰;徐斌;顾炎;刘东晓;杨佳乐;张松坡;崔瑞博;陈炜于 - 上海阅文信息技术有限公司
  • 2022-12-29 - 2023-05-09 - G10L13/027
  • 本发明提出了一种语音合成方法,包括如下步骤:步骤一、准备音频素材库,将音频素材库中的音频根据类型分成多类,并对音频打上标签;步骤二、基于Bert深度模型训练步骤一中获得的音频素材的标签,获得各音频素材对应的词向量;步骤三、输入小说的文本片段,对文本片段进行段落结构化解析,生成结构化画本;步骤四、根据语义近似,获取结构化画本中不同类型的词与音频素材库中相似度最高的音频候选;步骤五、调用适用的TTS引擎,融合匹配到的音频素材库中的候选音频,按照所需输出结构信息进行语音输出。本发明作为一种新型技术,能够融合TTS引擎与网文中的具体场景或者人物的性别、情感,向用户传达更有感染力的信息,提升相关产品的商业价值。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top