[发明专利]一种标签语义增强的弱监督文本分类方法及系统在审

申请号：	202310520566.6	申请日：	2023-05-10
公开（公告）号：	CN116628199A	公开（公告）日：	2023-08-22
发明（设计）人：	王雷;林呈宇;薛聪	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/30;G06F18/2415;G06F18/22;G06N3/0455;G06N3/047;G06N3/0895
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	李文涛
地址：	100085***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种标签语义增强监督文本分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种标签语义增强的弱监督文本分类方法，其特征在于，包括以下步骤：

针对需要分类的文本数据，从中提取样本并使用生成式方法对样本中的单词构造候选词列表；

对于候选词列表中每个单词，根据单词在样本中的语义确定其上下文表示，并计算其上下文表示与类别表示之间的相关性；

基于Zipf定律根据上述相关性计算单词的类别表示，并根据每次选取的相关性最高的单词构建类别词表；

针对样本的句子中的每个单词，使用BERT模型根据构建的类别词表确定单词的指示类别，并将该单词作为对应的类别指示性单词；

针对每个类别指示性单词，使用MASK机制掩蔽掉类别指示性单词，并使用交叉熵损失训练分类器根据类别指示性单词的上下文表示，来预测类别指示性单词的类别标签；

构建由BERT模型、语义相似度模块和Softmax分类器构成的自训练模块，该自训练模型通过BERT模型生成针对样本中句子的句向量表示，通过Softmax分类器根据句向量表示预测标签分布，通过语义相似度模块计算句向量表示与标签表示之间的相似度；该自训练模块根据相似度学习类别标签的标签语义，计算每个句子的真实标签分布并利用真实标签分布进行自训练；

利用训练好的自训练模块对需要分类的文本数据进行分类。

2.如权利要求1所述的方法，其特征在于，根据单词在样本中的语义确定其上下文表示的方法包括：对该单词在样本中出现的所有语境化表征进行平均，得到其上下文表示。

3.如权利要求1所述的方法，其特征在于，利用余弦相似度计算单词上下文表示与类别表示之间的相关性。

4.如权利要求1所述的方法，其特征在于，在计算单词的类别表示时，初始时的类别表示为类别名的上下文表示。

5.如权利要求1所述的方法，其特征在于，构建类别词表时，当经过多次单词选取后，如果剩余的所有单词的上下文表示与类别表示之间的相关性低于一阈值，则停止选取。

6.如权利要求1所述的方法，其特征在于，使用BERT模型根据构建的类别词表确定单词的指示类别的步骤包括：使用BERT模型找到最相关的k个单词，将该k个单词与每个类别的类别词表进行比较，选择交集超过一阈值且交集最大的类别作为该单词的指示类别。

7.如权利要求1所述的方法，其特征在于，通过类别指示性单词和所对应的词类别共同构成的集合，为类别指示性单词构建词级监督。

8.如权利要求1所述的方法，其特征在于，自训练模块通过标签嵌入得到类别标签表示。

9.如权利要求1所述的方法，其特征在于，该自训练模块在训练时，采用交叉熵损失和KL散度作为目标函数，其中交叉熵损失为预测标签分布时的损失，KL散度用于确定真实标签分布。

10.一种标签语义增强的弱监督文本分类系统，其特征在于，包括：

词表生成器，负责针对需要分类的文本数据，从中提取样本并使用生成式方法对样本中的单词构造候选词列表；对于候选词列表中每个单词，根据单词在样本中的语义确定其上下文表示，并计算其上下文表示与类别表示之间的相关性；基于Zipf定律根据上述相关性计算单词的类别表示，并根据每次选取的相关性最高的单词构建类别词表；

样本标注器，负责针对样本的句子中的每个单词，使用BERT模型根据构建的类别词表确定单词的指示类别，并将该单词作为对应的类别指示性单词；针对每个类别指示性单词，使用MASK机制掩蔽掉类别指示性单词，并使用交叉熵损失训练分类器根据类别指示性单词的上下文表示，来预测类别指示性单词的类别标签；

样本分类器，负责针对样本中的句子，生成句向量表示，包含由BERT模型、语义相似度模块和Softmax分类器构成的自训练模块，该自训练模块通过BERT模型生成针对样本中句子的句向量表示，通过Softmax分类器根据句向量表示预测标签分布，通过语义相似度模块计算句向量表示与标签表示之间的相似度；该自训练模块根据相似度学习类别标签的标签语义，计算每个句子的真实标签分布并利用真实标签分布进行自训练；利用训练好的自训练模块对需要分类的文本数据进行分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310520566.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种标签语义增强的弱监督文本分类方法及系统在审

专利文献下载