[发明专利]基于多任务学习的前端文本分析方法有效
申请号: | 202210132522.1 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114707503B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 黎天宇;张句;关昊天;王宇光 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/0442;G06N3/0464;G06F18/25;G06F16/35 |
代理公司: | 北京栈桥知识产权代理事务所(普通合伙) 11670 | 代理人: | 潘卫锋 |
地址: | 300384 天津市西青区天津华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 前端 文本 分析 方法 | ||
1.一种基于多任务学习的前端文本分析方法,其特征在于,包括以下步骤:
S1、数据标注:
人工对相同源语料进行数据标注,即针对不同的任务标注不同的标签;所述相同源语料为文本相同但标签不同的语料;
S2、特征准备:
S2-1、提取分词特征:
使用分词模型对语料进行分词,并使用[BMES]标签进行标注,作为一维特征fea1;
S2-2、提取词性特征:
使用词性标注模型对语料进行词性分析,将分析结果按照[POS]标签进行标记作为词性特征,作为一维特征fea2;
S2-3、构建多音字特征:
针对多音字任务,通过多音字词典构建多音字特征标签[POLY],并作为一维特征fea3,以判断一个字是否是多音字,若该字是多音字则标注为1,若不是则标注为0;
S3、特征融合:
S3-1、提取共享层特征:
使用CNN作为共享层,对语句按char级别输入并提取深层次特征;
S3-2、拼接融合:
通过词嵌入层构建word特征和char特征,再将fea1、fea2、fea3这三个特征和word特征、char特征转为特征向量,然后将上述特征向量进行拼接融合;
S4、分类:
将步骤S3中获取的深层次特征按时间排列成句子级别的特征,并将得到的特征向量分别送到两个Bi-LSTM网络中学习上下文时间依赖;然后分别完成多音字消歧任务和韵律预测任务;
所述步骤S3-2中,构建两个特征向量F1、F2进行拼接融合,维度为140;
其中,任务1中第i个话语中第j个字的组合特征向量F1可以表示为:
F1ij=[Wordij,Charij,Fea1ij,Fea2ij,Fea3ij]
任务2中第i个话语中第j个字的组合特征向量F2可以表示为:
F2ij=[Wordij,Charij,Fea1ij,Fea2ij,Fea3ij]
两个任务可以根据实际情况的不同,动态调节所需特征来进行特征融合。
2.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S1在进行数据标注之前还包括数据处理,所述数据处理的方法为:对语料中的每句话按字切分,并过滤掉长度超过250的语句。
3.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S1中,针对不同的任务标注不同的标签具体为:将每个文本对应的多音字标签和韵律标签拼接在后面。
4.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S2-1中,[BMES]标签为:B:开始、M:中间、E:结束、S:独立。
5.根据权利要求4所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S2-2中,词性特征包括:名词n形容词a动词v连词c助词u副词d叹词e连词c数词m标点符号w方位词f介词p拟声词o量词q代词r。
6.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S3-1具体为:首先通过词嵌入层将char转化为向量,层大小为[6048×30],然后分批放入CNN网络进行特征提取;提取到的源语句信息用于后续两个任务的特征融合。
7.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S4中,多音字消歧任务对每个字进行多音字判断后进行注音消歧,韵律预测任务对句中每个字进行韵律标注。
8.根据权利要求1所述的基于多任务学习的前端文本分析方法,其特征在于,所述步骤S4中,Bi-LSTM输出层后接一个线性层,输出维度为每个任务对应的label标签数量,激活函数为softmax。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210132522.1/1.html,转载请声明来源钻瓜专利网。