[发明专利]一种无需标注数据的文本分类方法在审

专利信息
申请号: 202211218641.5 申请日: 2022-10-06
公开(公告)号: CN115630642A 公开(公告)日: 2023-01-20
发明(设计)人: 蒋哲峰;曹肖攀;花榕励;陈先磊 申请(专利权)人: 中电万维信息技术有限责任公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F18/241
代理公司: 兰州嘉诺知识产权代理事务所(普通合伙) 62202 代理人: 张鹏
地址: 730000 甘肃省兰州市城关*** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 无需 标注 数据 文本 分类 方法
【说明书】:

发明涉及自然语言处理技术领域,具体为一种无需标注数据的文本分类方法,具体步骤有关键词抽取;生成关键词和所在相关文本关系对;文本编码表示;训练模型;文本类别预测;本发明基于CLIP架构,通过CLIP模型训练使得关键词和关键词所在文本的相关性最大,而关键词和其他文本相关性最小,关键词本身和文本分类名称具有一定的语义相关性,这样在预测阶段,将文本分类名称通过Transformer‑Encoder编码器语义表示,然后针对每个文本语义表示后搜索最相关语义表示,该语义表示的文本分类名称即文本的类别,即完成无监督文本分类任务。同时为了增大负样本的概率,采用每保存一次模型,对数据进行一次shuffle打乱操作克服了相关技术中的有监督方案初期难以标注数据的技术问题。

技术领域

本发明涉及自然语言处理技术领域,具体为一种无需标注数据的文本分类方法。

背景技术

文本分类在智能标签、文本搜索、案件判断、智能诊断等场景中应用广泛。基于深度学习的文本分类已经逐渐成为业界的主流,但是数据标注耗费大量的人力资源,同时繁琐的标注工作降低了工作人员的工作效率,这成为有监督深度学习文本分类的痛点和难点。本发明通过关键词和文本类别名称因为在文本中共现或者语义相似,认为关键词的语义表示和文本类别的语义表示具有一定的相似性,通过训练模型使得文本语义表示和关键词的语义表示尽量相似,即等效认为可以使得文本类别的名称的语义表示和文本语义表示尽量相似,则通过文本语义表示搜索最相似的类别名称的语义表示,即完成文本分类任务,本发明通过该方法,成功的解决了文本数据标注问题。

发明内容

为实现上述技术效果,本发明一种无需标注数据的文本分类方法包括有如下步骤:

S1.关键词抽取:将已知的文本类别名称作为类别关键词,将这些关键词以tf-idf的形式设置为最大的值添加到jieba分词工具的tf-idf词典中,保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时,优先得到每条文本类别关键词,再得到其他关键词,共同组成每条文本的关键词列表;

S2.生成关键词和所在相关文本关系对:将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系,即多个关系对,每一个关系对形如(关键词,相关文本),做为模型输入源;

S3.文本编码表示:将步骤S2中得到的输入源中的关键词经过Transformer-Encoder编码器,而对应所在相关文本经过Transformer-Encoder编码器,分别得到关键词和关键词相关文本的语义表示张量;

S4.训练模型:根据已设定好的网络结构和损失函数优化等进行模型训练,训练过程中,以关键词语义表示和相关文本语义表示的相似度为目标,相关的关键词和文本相似度最高,其他不相关的相似度低,直到所有目标都能够收敛稳定,最终通过训练,得到模型;

S5.文本类别预测:将已知的用户提供的文本类别名称全部通过Transformer-Encoder网络编码器做语义表示,新输入文本经过使用了步骤S4中的模型参数的网络结构,搜索最相关的文本类别,最终得到文本类别输出结果。

进一步的,所述的步骤S2中,关键词抽取具体方法为:使用tf-idf算法计算每个文本中的词的重要程度,按重要程度排序,选取关键词作为该条文本候选关键词列表;tf为词频,idf为所有文档的逆文档频率,tf-idf则为两项乘积。

进一步的,所述步骤3中,生成关键词和所在相关文本关系对具体操作为:假设存在某文本为x,x关键词列表为[key1,key2,key3,...,keyn],则该条文本生成的关系对即为(key1,x)、(key2,x)、(key3,x)...,(keyn,x),每一条文本都和它的关键词进行映射操作,最终得到一系列的关键词-相关文本关系对,来作为编码前的模型输入源。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211218641.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top