[发明专利]一种基于正则表达式和WFST的TTS文本正则化方法和装置在审

申请号：	202310276496.4	申请日：	2023-03-21
公开（公告）号：	CN116312540A	公开（公告）日：	2023-06-23
发明（设计）人：	陈锁;顾文元;张雪源	申请（专利权）人：	上海元梦智能科技有限公司;元梦人文智能国际有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L25/03;G10L25/27;G10L25/48
代理公司：	北京市隆安律师事务所 11323	代理人：	何琦
地址：	200120 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于正则表达式 wfst tts 文本方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于正则表达式和WFST的TTS文本正则化方法和装置，其中方法包括步骤，获取待识别的目标文本；确定所述目标文本的类型；基于所述目标文本的类型，从预先构建的第二WFST中获取对应的正则表达式替换规则；基于所述对应的正则表达式替换规则，将所述目标文本转换为对应的正则文本；将所述对应的正则文本转化为语音信息。采用本发明提供的一种基于正则表达式和WFST的TTS文本正则化方法和装置，可有效使得普通软件开发者只需编写正则表达式，即可将大量正则表达式替换规则融合成一个WFST图结构，进而使得虚拟人TTS文本正则化方法更加易于扩展和维护。

技术领域

本发明涉及语音识别领域，尤其涉及一种基于正则表达式和WFST的TTS文本正则化方法和装置。

背景技术

如今，虚拟人被用于越来越多的场景，包括新闻播报，服务提供，聊天交互，内容生成等。而虚拟人跟用户进行聊天交互主要依赖于自然语言领域的对话系统。为了使虚拟人跟用户进行聊天交互时的发音更准确，需要在TTS(text-to-speech)之前加入文本正则化模块，用来将一些非规范字符转换成能够正确发音的字符，如应将“7+8＝15”转换成“七加八等于十五”。

目前针对中文的TTS文本正则化的方法一般使用规则化方法或者基于深度学习的方法或者两者结合的方法。规则化方法可控，易于扩展，而深度学习方法需要大量打标的训练数据。

规则化方法主要采用WFST(有限状态转录机)。WFST需要人工编写语法，但其语法编写耗时易出错。对于普通软件开发者来说是一件难度比较大的工作。

发明内容

本发明的目的在规则化方法的基础上提供一种基于正则表达式的文本替换规则转成WFST语法的方法，用来给虚拟人TTS文本正则化方法提供支持，降低虚拟人TTS文本正则化的维护成本。

本发明提供的一种基于正则表达式和WFST的TTS文本正则化方法和装置技术方案如下：

一种基于正则表达式和WFST的TTS文本正则化方法，包括：

获取待识别的目标文本；

确定所述目标文本的类型；

基于所述目标文本的类型，从预先构建的第二WFST中获取对应的正则表达式替换规则；

基于所述对应的正则表达式替换规则，将所述目标文本转换为对应的正则文本；

将所述对应的正则文本转化为语音信息。

在一些实施方式中，在获取待识别的目标文本之前还包括：构建所述第二WFST；具体包括：