[发明专利]一种基于正则表达式和WFST的TTS文本正则化方法和装置在审
申请号: | 202310276496.4 | 申请日: | 2023-03-21 |
公开(公告)号: | CN116312540A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 陈锁;顾文元;张雪源 | 申请(专利权)人: | 上海元梦智能科技有限公司;元梦人文智能国际有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/03;G10L25/27;G10L25/48 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 何琦 |
地址: | 200120 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正则 表达式 wfst tts 文本 方法 装置 | ||
本发明提供一种基于正则表达式和WFST的TTS文本正则化方法和装置,其中方法包括步骤,获取待识别的目标文本;确定所述目标文本的类型;基于所述目标文本的类型,从预先构建的第二WFST中获取对应的正则表达式替换规则;基于所述对应的正则表达式替换规则,将所述目标文本转换为对应的正则文本;将所述对应的正则文本转化为语音信息。采用本发明提供的一种基于正则表达式和WFST的TTS文本正则化方法和装置,可有效使得普通软件开发者只需编写正则表达式,即可将大量正则表达式替换规则融合成一个WFST图结构,进而使得虚拟人TTS文本正则化方法更加易于扩展和维护。
技术领域
本发明涉及语音识别领域,尤其涉及一种基于正则表达式和WFST的TTS文本正则化方法和装置。
背景技术
如今,虚拟人被用于越来越多的场景,包括新闻播报,服务提供,聊天交互,内容生成等。而虚拟人跟用户进行聊天交互主要依赖于自然语言领域的对话系统。为了使虚拟人跟用户进行聊天交互时的发音更准确,需要在TTS(text-to-speech)之前加入文本正则化模块,用来将一些非规范字符转换成能够正确发音的字符,如应将“7+8=15”转换成“七加八等于十五”。
目前针对中文的TTS文本正则化的方法一般使用规则化方法或者基于深度学习的方法或者两者结合的方法。规则化方法可控,易于扩展,而深度学习方法需要大量打标的训练数据。
规则化方法主要采用WFST(有限状态转录机)。WFST需要人工编写语法,但其语法编写耗时易出错。对于普通软件开发者来说是一件难度比较大的工作。
发明内容
本发明的目的在规则化方法的基础上提供一种基于正则表达式的文本替换规则转成WFST语法的方法,用来给虚拟人TTS文本正则化方法提供支持,降低虚拟人TTS文本正则化的维护成本。
本发明提供的一种基于正则表达式和WFST的TTS文本正则化方法和装置技术方案如下:
一种基于正则表达式和WFST的TTS文本正则化方法,包括:
获取待识别的目标文本;
确定所述目标文本的类型;
基于所述目标文本的类型,从预先构建的第二WFST中获取对应的正则表达式替换规则;
基于所述对应的正则表达式替换规则,将所述目标文本转换为对应的正则文本;
将所述对应的正则文本转化为语音信息。
在一些实施方式中,在获取待识别的目标文本之前还包括:构建所述第二WFST;具体包括:
基于预先编写的WFST的基础语法,构造基本WFST图结构;
针对不同类型的文本,编写对应的正则表达式替换规则,所述正则表达式替换规则包括正则表达式和WFST基础语法;
将每个所述正则表达式替换规则中的所述WFST基础语法部分通过组合算法进行前后叠加运算,融合成第一WFST,并对所述第一WFST进行优化;
将所有的第一WFST融合成第二WFST,并对所述第二WFST进行优化。
在一些实施方式中,所述基本WFST图结构,具体包括:数字、货币、日期、电话和单位的WFST图结构。
在一些实施方式中,所述对所述第一WFST进行优化,具体包括:
通过子集构造法优化所述第一WFST,进而实现所述第一WFST“非确定性”到“确定性”。
在一些实施方式中,所述的将所有的所述第一WFST融合成第二WFST具体包括:
将多个所述第一WFST进行上下并行组合的方式进行融合形成所述第二WFST。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海元梦智能科技有限公司;元梦人文智能国际有限公司,未经上海元梦智能科技有限公司;元梦人文智能国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310276496.4/2.html,转载请声明来源钻瓜专利网。