[发明专利]基于多任务学习的前端文本分析方法有效

专利信息
申请号: 202210132522.1 申请日: 2022-02-14
公开(公告)号: CN114707503B 公开(公告)日: 2023-04-07
发明(设计)人: 黎天宇;张句;关昊天;王宇光 申请(专利权)人: 慧言科技(天津)有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06N3/0442;G06N3/0464;G06F18/25;G06F16/35
代理公司: 北京栈桥知识产权代理事务所(普通合伙) 11670 代理人: 潘卫锋
地址: 300384 天津市西青区天津华苑产业*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 任务 学习 前端 文本 分析 方法
【说明书】:

发明公开了基于多任务学习的前端文本分析方法,使用相同语料进行特征和结果标注,并使用CNN网络作为共享层对语料进行特征提取,然后分别放入两个Bi‑LSTM中并行训练,针对两个任务输出结果,具体包括以下步骤:S1、数据标注;S2、特征准备;S3、特征融合;S4、分类。本发明使用多任务学习方法将多音字预测和韵律预测任务相结合,实现了一个统一的端到端的文本处理模型,即提供统一的前端结构,以更快速、更轻松地构建高质量的普通话TTS系统。统一模型的训练可以使用相同的数据作为输入,可以直接从原始文本中同时预测多音字和韵律,可以将两个任务并行训练,减少了数据标注的工作量,也节约了训练成本,并同时输出两个结果,简化了训练过程。

技术领域

本发明涉及语音合成技术领域,具体是涉及基于多任务学习的前端文本分析方法。

背景技术

文本转语音(Text-to-Speech,TTS),又称语音合成。旨在从文本中合成可理解的自然语音,在人类交流中有着广泛的应用,长期以来一直是人工智能、自然语言处理和语音处理领域的研究课题。开发TTS系统需要语言和人类语音生成的知识,涉及多个学科,包括语言学、声学、数字信号处理和机器学习。随着深度学习的发展,基于神经网络的TTS蓬勃发展,大量的研究工作集中在神经TTS的不同方面。因此,近年来合成语音的质量有了很大的提高。

在普通话文本到语音的合成中,前端的文本处理模块对合成语音的可懂度和自然度有很大影响。典型的普通话TTS前端是一个基于管道的系统,由一系列文本处理组件构成,如文本归一化(TN)、中文分词(CWS)、多音字消歧、韵律预测和注音(G2P)。这种结构使我们能够分治复杂的前端任务。但是,这种串行结构也带来了几个问题。一种是复杂的特征工程和数据标记工作,因为每个组件都需要不同的输入和输出标签。另一个是前端组件需要单独训练和优化,导致训练过程变得非常复杂。

发明内容

针对上述背景技术指出的问题,本发明提供了基于多任务学习的前端文本分析方法。

为解决上述技术问题,本发明提出了基于多任务学习的前端文本分析方法,使用相同语料进行特征和结果标注,并使用CNN网络作为共享层对语料进行特征提取,然后分别放入两个Bi-LSTM中并行训练,针对两个任务输出结果,具体技术方案如下:

S1、数据标注:

人工对相同源语料进行数据标注,即针对不同的任务标注不同的标签;所述相同源语料为文本相同但标签不同的语料;

S2、特征准备:

S2-1、提取分词特征:

使用分词模型对语料进行分词,并使用[BMES]标签进行标注,作为一维特征fea1;所述分词模型指的是用于对文本进行分词的模型;

S2-2、提取词性特征:

使用词性标注模型对语料进行词性分析,将分析结果按照[POS]标签进行标记作为词性特征,作为一维特征fea2

[POS]标签即词性标签,如为名词则标签标记为[POS]n如为动词则标签标记为[POS]v以此类推;

在文本处理任务中,机器首先要模拟理解语言。为了实现这一点,它必须在一定程度上能够了解自然语言的规则;它首先需要理解的是词,特别是每一个词的性质;所以我们使用词性标注模型对语料进行标注,并同样按照其对应的词性进行标注;

S2-3、构建多音字特征:

针对多音字任务,通过多音字词典构建多音字特征标签[POLY],并作为一维特征fea3,以判断该字是否是多音字,若该字是多音字则标注为1,若不是则标注为0;该特征可以很好的指导模型完成多音字消歧任务;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210132522.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top