[发明专利]语音合成方法、装置、系统及存储介质在审
申请号: | 202110787580.3 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113539234A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 潘华山;李秀林 | 申请(专利权)人: | 标贝(北京)科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/047;G10L13/033;G10L25/30 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
地址: | 100192 北京市海淀区西小口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 系统 存储 介质 | ||
本发明提供一种语音合成方法、装置、系统及存储介质。方法包括:获取待处理文本;对任一目标语句进行文本分析,以获得初始文本分析结果,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名称、角色属性和情绪类别;输出文本结果信息,文本结果信息包括初始文本分析结果;接收用户输入的文本反馈信息;在文本反馈信息包括与初始文本分析结果相关的第一修改信息的情况下,基于第一修改信息对初始文本分析结果进行修改,以获得新文本分析结果;至少基于最终文本分析结果对目标语句进行语音合成。保证较高效率的同时获得高质量的合成语音。
技术领域
本发明涉及语音处理技术领域,具体地,涉及一种语音合成方法、装置、系统及存储介质。
背景技术
语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。随着用户对有声读物类资源的需求日益增长,依靠人工录制有声读物语料的做法已难以满足需求,因而开发多角色多情绪的(半)自动语音合成技术/工具/系统显得尤为重要。现有的多角色多情绪语音合成技术主要采用单纯模型的方式实现。然而,单纯依靠模型无法保证最终的语音合成效果。
发明内容
为了至少部分地解决现有技术中存在的问题,提供一种语音合成方法、装置、系统及存储介质。
根据本发明一个方面,提供一种语音合成方法,包括:获取待处理文本;对待处理文本中的任一目标语句进行文本分析,以获得初始文本分析结果,其中,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名称、角色属性和情绪类别,其中,对文本类型的分析是指判断目标语句是否属于多角色类型,多角色类型包括对白,角色属性包括角色性别和/或角色年龄;输出文本结果信息,文本结果信息包括初始文本分析结果;接收用户输入的文本反馈信息;在文本反馈信息包括与初始文本分析结果相关的第一修改信息的情况下,基于第一修改信息对初始文本分析结果进行修改,以获得新文本分析结果;以及至少基于最终文本分析结果对目标语句进行语音合成,以获得与目标语句相对应的最终合成语音,其中,在未对初始文本分析结果进行修改的情况下,最终文本分析结果为初始文本分析结果,并且在对初始文本分析结果进行修改的情况下,最终文本分析结果为新文本分析结果。
根据本发明另一方面,还提供一种语音合成装置,包括:获取模块,用于获取待处理文本;文本分析模块,用于对待处理文本中的任一目标语句进行文本分析,以获得初始文本分析结果,其中,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名称、角色属性和情绪类别,其中,对文本类型的分析是指判断目标语句是否属于多角色类型,多角色类型包括对白,角色属性包括角色性别和/或角色年龄;输出模块,用于输出文本结果信息,文本结果信息包括初始文本分析结果;接收模块,用于接收用户输入的文本反馈信息;修改模块,用于在文本反馈信息包括与初始文本分析结果相关的第一修改信息的情况下,基于第一修改信息对初始文本分析结果进行修改,以获得新文本分析结果;以及合成模块,用于至少基于最终文本分析结果对目标语句进行语音合成,以获得与目标语句相对应的最终合成语音,其中,在未对初始文本分析结果进行修改的情况下,最终文本分析结果为初始文本分析结果,并且在对初始文本分析结果进行修改的情况下,最终文本分析结果为新文本分析结果。
根据本发明另一方面,还提供一种语音合成系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述语音合成方法。
根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述语音合成方法。
根据本发明实施例的语音合成方法、装置、系统及存储介质,在文本分析之后加入人工干预的方式可以及时修正针对文本的分析结果,避免错误的进一步叠加。这种方案可以结合模型的高效性和人工干预的精确性等特点,可以在保证较高效率的同时获得高质量的合成语音,以更好地满足有声读物等需要多角色多情绪朗读的应用场景的需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(北京)科技有限公司,未经标贝(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787580.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于建筑垃圾的再回收装置
- 下一篇:一种芯片扫描链测试方法和系统