[发明专利]基于阅读理解模型的文本分类方法及系统在审
申请号: | 202310568220.3 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116663533A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 杨喆 | 申请(专利权)人: | 普强时代(珠海横琴)信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/295;G06F18/24 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 张峰 |
地址: | 519031 广东省珠海市横琴*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阅读 理解 模型 文本 分类 方法 系统 | ||
1.一种基于阅读理解模型的文本分类方法,其特征在于,包括:
S1、预先定义问题模版,基于所述预先定义的问题模板将分类模型的待提取标签转换为输入问题;
S2、对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
S3、对所述输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与所述阅读理解模型输入问题相关的上下文;
S4、将所述阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
S5、根据所述阅读理解模型的输出获取分类模型的关键文本片段。
2.根据权利要求1所述的方法,其特征在于,所述对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强具体包括:
S21、搜集所述输入文本中含有潜在标签的上下文文本,根据所述输入问题进行人工标注,标注内容为标签依据片段和易混淆片段,所述标签依据片段为上下文文本中用于判断标签为真的片段,所述易混淆片段为和标签相关或和所述标签依据片段说法相近但无法说明标签为真的片段;
S22、对所述上下文文本应用数据增强技术进行数据增强,具体包括:词的随机替换、增加、删除以及回译,进行数据增强时不对所述标签依据片段和易混淆片段进行修改,仅改动所述上下文文本中除标签依据片段和易混淆片段的其余部分。
3.根据权利要求1所述的方法,其特征在于,所述对所述输入问题以及分类模型的输入文本进行文本预处理具体包括:中文分词、词性标注、命名实体标注、交叉信息标注、去停用词、词频统计以及tf-idf统计。
4.根据权利要求1所述的方法,其特征在于,所述阅读理解模型需要进行预先构建,所述构建过程具体包括:
S41、构建Encoder模块,所述Encoder负责对阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文编码为语义表示;
S42、构建Decoder模块,所述Decoder模块负责将所述语义表示解码为标签分类结果和判断依据片段的起终点;
S43、构建prediction模块,所述prediction模块用于定义所述标签依据片段的起始和所述易混淆片段的起始;
S44、构建阅读理解模型的损失函数,具体包括:在传统损失函数的基础上,加入所述易混淆片段的起始,使得阅读理解模型区分易混淆偏度和标签依据片段;
S45、通过公式1采用带窗口的标签平滑技术进行标签降噪处理:
其中,Li表示上下文中第i个字为边界的概率,I为正确标签的位置,smoothing为参数用于调整标签平滑程度,window为假设的标注误差范围,Smoothend和Smoothstart为平滑的标签范围;
S46、将步骤S2中标注好的数据以预设比例划分训练集、验证集以及测试集进行训练后得到训练好的阅读理解模型。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5具体包括:
根据阅读理解模型直接输出是否有答案或根据输出答案的起始位置判断是否有答案,如果有则输出标签为正,如果没有则输出标签为负。
6.一种基于阅读理解模型的文本分类系统,其特征在于,包括:
输入问题模块,用于预先定义问题模版,基于所述预先定义的问题模板将分类模型的待提取标签转换为输入问题,
数据标注模块,用于对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
预处理模块,用于对所述输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与所述阅读理解模型输入问题相关的上下文;
模型输出模块,用于将得到阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
获取关键文本片段模块,用于根据所述阅读理解模型的输出获取分类模型的关键文本片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强时代(珠海横琴)信息技术有限公司,未经普强时代(珠海横琴)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310568220.3/1.html,转载请声明来源钻瓜专利网。