[发明专利]基于阅读理解模型的文本分类方法及系统在审
申请号: | 202310568220.3 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116663533A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 杨喆 | 申请(专利权)人: | 普强时代(珠海横琴)信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/295;G06F18/24 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 张峰 |
地址: | 519031 广东省珠海市横琴*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阅读 理解 模型 文本 分类 方法 系统 | ||
本发明提供了一种基于阅读理解模型的文本分类方法及系统,其中,方法包括:基于预先定义的问题模板将分类模型的待提取标签转换为输入问题,对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文并输入阅读理解模型,得到阅读理解模型的输出;根据阅读理解模型的输出获取分类模型的关键文本片段。以解决无法提取标签相关的判断依据文本片段以及易混淆片段误判和标注误差未处理的情况的问题。
技术领域
本文件涉及分类模型技术领域,尤其涉及一种基于阅读理解模型的文本分类方法及系统。
背景技术
随着电子信息化的推进,在金融、保险、银行等领域的业务场景中产生了海量文本数据,其中蕴含了丰富的业务信息。如电销通话文本中根据客户是否具有经济实力、是否具有保险意识、是否具有购买意愿等可以找出高价值客户;在通话文本质检时需要评价客服是否合规,如判定对话中是否有服务禁忌语、是否有符合规定的开场白结束语等。过去,业界一般将其作为一个文本分类任务,借助经验规则、SVM等传统机器学习模型、以及近年来逐渐成为主流的神经网络分类模型来解决该任务,该解决方案称为基于文本分类技术路线的AI建模。但是使用分类模型来解决该任务有下列缺陷:一、在业务场景中不仅需要分类标签,还需要找出文本中的能表明其标签类别的关键片段,分类模型无法满足该需求;二、分类模型迁移性较差,在冷启动或标注数据少的场景中难以有效建模;三、神经网络可解释性差,导致对分类错误的样例进行分析的难度大,增大了模型优化难度。
机器阅读理解是NLP任务中的一项综合性任务,它要求机器根据给定的上下文和问题,从上下文中提取或生成问题答案。其提取答案的能力可以满足关键片段抽取的需求;借助模型对上下文+问题的语义理解能力,当面对新的问题时,即使没有标注或仅有少量标注,模型仍具有一定的回答能力,模型迁移性较强。但是传统的阅读理解模型存在一些问题,一:容易对与正确答案片段相似但含义不同的易混淆片段误识别,二:对于标注中存在的标注误差没有进行处理,导致模型效果不佳。
发明内容
本发提供一种基于阅读理解模型的文本分类方法及系统,旨在解决上述问题。
本发明提供了一种基于阅读理解模型的文本分类方法,包括:
S1、预先定义问题模版,基于预先定义的问题模板将分类模型的待提取标签转换为输入问题;
S2、对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
S3、对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文;
S4、将得到阅读理解模型的输入问题和与阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
S5、根据阅读理解模型的输出获取分类模型的关键文本片段。
本发明提供了一种基于阅读理解模型的文本分类系统,包括:
输入问题模块,用于预先定义问题模版,基于预先定义的问题模板将分类模型的待提取标签转换为输入问题,
数据标注模块,用于对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
预处理模块,用于对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文;
模型输出模块,用于将得到阅读理解模型的输入问题和与阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
获取关键文本片段模块,用于根据阅读理解模型的输出获取分类模型的关键文本片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强时代(珠海横琴)信息技术有限公司,未经普强时代(珠海横琴)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310568220.3/2.html,转载请声明来源钻瓜专利网。