[发明专利]一种标签语义增强的弱监督文本分类方法及系统在审
申请号: | 202310520566.6 | 申请日: | 2023-05-10 |
公开(公告)号: | CN116628199A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 王雷;林呈宇;薛聪 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30;G06F18/2415;G06F18/22;G06N3/0455;G06N3/047;G06N3/0895 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 语义 增强 监督 文本 分类 方法 系统 | ||
1.一种标签语义增强的弱监督文本分类方法,其特征在于,包括以下步骤:
针对需要分类的文本数据,从中提取样本并使用生成式方法对样本中的单词构造候选词列表;
对于候选词列表中每个单词,根据单词在样本中的语义确定其上下文表示,并计算其上下文表示与类别表示之间的相关性;
基于Zipf定律根据上述相关性计算单词的类别表示,并根据每次选取的相关性最高的单词构建类别词表;
针对样本的句子中的每个单词,使用BERT模型根据构建的类别词表确定单词的指示类别,并将该单词作为对应的类别指示性单词;
针对每个类别指示性单词,使用MASK机制掩蔽掉类别指示性单词,并使用交叉熵损失训练分类器根据类别指示性单词的上下文表示,来预测类别指示性单词的类别标签;
构建由BERT模型、语义相似度模块和Softmax分类器构成的自训练模块,该自训练模型通过BERT模型生成针对样本中句子的句向量表示,通过Softmax分类器根据句向量表示预测标签分布,通过语义相似度模块计算句向量表示与标签表示之间的相似度;该自训练模块根据相似度学习类别标签的标签语义,计算每个句子的真实标签分布并利用真实标签分布进行自训练;
利用训练好的自训练模块对需要分类的文本数据进行分类。
2.如权利要求1所述的方法,其特征在于,根据单词在样本中的语义确定其上下文表示的方法包括:对该单词在样本中出现的所有语境化表征进行平均,得到其上下文表示。
3.如权利要求1所述的方法,其特征在于,利用余弦相似度计算单词上下文表示与类别表示之间的相关性。
4.如权利要求1所述的方法,其特征在于,在计算单词的类别表示时,初始时的类别表示为类别名的上下文表示。
5.如权利要求1所述的方法,其特征在于,构建类别词表时,当经过多次单词选取后,如果剩余的所有单词的上下文表示与类别表示之间的相关性低于一阈值,则停止选取。
6.如权利要求1所述的方法,其特征在于,使用BERT模型根据构建的类别词表确定单词的指示类别的步骤包括:使用BERT模型找到最相关的k个单词,将该k个单词与每个类别的类别词表进行比较,选择交集超过一阈值且交集最大的类别作为该单词的指示类别。
7.如权利要求1所述的方法,其特征在于,通过类别指示性单词和所对应的词类别共同构成的集合,为类别指示性单词构建词级监督。
8.如权利要求1所述的方法,其特征在于,自训练模块通过标签嵌入得到类别标签表示。
9.如权利要求1所述的方法,其特征在于,该自训练模块在训练时,采用交叉熵损失和KL散度作为目标函数,其中交叉熵损失为预测标签分布时的损失,KL散度用于确定真实标签分布。
10.一种标签语义增强的弱监督文本分类系统,其特征在于,包括:
词表生成器,负责针对需要分类的文本数据,从中提取样本并使用生成式方法对样本中的单词构造候选词列表;对于候选词列表中每个单词,根据单词在样本中的语义确定其上下文表示,并计算其上下文表示与类别表示之间的相关性;基于Zipf定律根据上述相关性计算单词的类别表示,并根据每次选取的相关性最高的单词构建类别词表;
样本标注器,负责针对样本的句子中的每个单词,使用BERT模型根据构建的类别词表确定单词的指示类别,并将该单词作为对应的类别指示性单词;针对每个类别指示性单词,使用MASK机制掩蔽掉类别指示性单词,并使用交叉熵损失训练分类器根据类别指示性单词的上下文表示,来预测类别指示性单词的类别标签;
样本分类器,负责针对样本中的句子,生成句向量表示,包含由BERT模型、语义相似度模块和Softmax分类器构成的自训练模块,该自训练模块通过BERT模型生成针对样本中句子的句向量表示,通过Softmax分类器根据句向量表示预测标签分布,通过语义相似度模块计算句向量表示与标签表示之间的相似度;该自训练模块根据相似度学习类别标签的标签语义,计算每个句子的真实标签分布并利用真实标签分布进行自训练;利用训练好的自训练模块对需要分类的文本数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310520566.6/1.html,转载请声明来源钻瓜专利网。