[发明专利]基于多任务学习的前端文本分析方法有效

专利信息
申请号: 202210132522.1 申请日: 2022-02-14
公开(公告)号: CN114707503B 公开(公告)日: 2023-04-07
发明(设计)人: 黎天宇;张句;关昊天;王宇光 申请(专利权)人: 慧言科技(天津)有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06N3/0442;G06N3/0464;G06F18/25;G06F16/35
代理公司: 北京栈桥知识产权代理事务所(普通合伙) 11670 代理人: 潘卫锋
地址: 300384 天津市西青区天津华苑产业*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 任务 学习 前端 文本 分析 方法
【权利要求书】:

1.一种基于多任务学习的前端文本分析方法,其特征在于,包括以下步骤:

S1、数据标注:

人工对相同源语料进行数据标注,即针对不同的任务标注不同的标签;所述相同源语料为文本相同但标签不同的语料;

S2、特征准备:

S2-1、提取分词特征:

使用分词模型对语料进行分词,并使用[BMES]标签进行标注,作为一维特征fea1

S2-2、提取词性特征:

使用词性标注模型对语料进行词性分析,将分析结果按照[POS]标签进行标记作为词性特征,作为一维特征fea2

S2-3、构建多音字特征:

针对多音字任务,通过多音字词典构建多音字特征标签[POLY],并作为一维特征fea3,以判断一个字是否是多音字,若该字是多音字则标注为1,若不是则标注为0;

S3、特征融合:

S3-1、提取共享层特征:

使用CNN作为共享层,对语句按char级别输入并提取深层次特征;

S3-2、拼接融合:

通过词嵌入层构建word特征和char特征,再将fea1、fea2、fea3这三个特征和word特征、char特征转为特征向量,然后将上述特征向量进行拼接融合;

S4、分类:

将步骤S3中获取的深层次特征按时间排列成句子级别的特征,并将得到的特征向量分别送到两个Bi-LSTM网络中学习上下文时间依赖;然后分别完成多音字消歧任务和韵律预测任务;

所述步骤S3-2中,构建两个特征向量F1、F2进行拼接融合,维度为140;

其中,任务1中第i个话语中第j个字的组合特征向量F1可以表示为:

F1ij=[Wordij,Charij,Fea1ij,Fea2ij,Fea3ij]

任务2中第i个话语中第j个字的组合特征向量F2可以表示为:

F2ij=[Wordij,Charij,Fea1ij,Fea2ij,Fea3ij]

两个任务可以根据实际情况的不同,动态调节所需特征来进行特征融合。

2.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S1在进行数据标注之前还包括数据处理,所述数据处理的方法为:对语料中的每句话按字切分,并过滤掉长度超过250的语句。

3.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S1中,针对不同的任务标注不同的标签具体为:将每个文本对应的多音字标签和韵律标签拼接在后面。

4.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S2-1中,[BMES]标签为:B:开始、M:中间、E:结束、S:独立。

5.根据权利要求4所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S2-2中,词性特征包括:名词n形容词a动词v连词c助词u副词d叹词e连词c数词m标点符号w方位词f介词p拟声词o量词q代词r。

6.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S3-1具体为:首先通过词嵌入层将char转化为向量,层大小为[6048×30],然后分批放入CNN网络进行特征提取;提取到的源语句信息用于后续两个任务的特征融合。

7.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S4中,多音字消歧任务对每个字进行多音字判断后进行注音消歧,韵律预测任务对句中每个字进行韵律标注。

8.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S4中,Bi-LSTM输出层后接一个线性层,输出维度为每个任务对应的label标签数量,激活函数为softmax。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210132522.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top