[发明专利]一种面向任务基于注意力机制的文本分类方法在审

申请号：	202310169580.6	申请日：	2023-02-27
公开（公告）号：	CN116108184A	公开（公告）日：	2023-05-12
发明（设计）人：	刘洪涛;宋奕廷	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06N3/0442;G06N3/0464;G06N3/045
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	廖曦
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向任务基于注意力机制文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向任务基于注意力机制的文本分类方法，其特征在于：该方法包括以下步骤：

步骤一：在注意力机制中引入了任务信息权重对于每个输入x_i∈R^|V|都有其对应的独热嵌入，e_i∈R^|d|，其中i∈[1，...，t]表示序列中的位置，t表示序列长度，|V|表示词汇大小，d表示嵌入的维度；然后将e_i传递给编码器，以生成隐藏表示h_i＝Enc(e_i)，其中h_i∈R^N，N为隐藏表示的大小；随后获得整个文本序列x₁，...，x_t的向量表示c，整个输入的文本序列由h_i通过任务信息权重和注意力权重α_i加权得出：

c＝∑_iα_ic_i，c∈R^N

步骤二：种子词库的构建；计算通过种子词库构建新的向量u∈R^|V|来估计词表里每个单词的标量权重；给定输入序列x＝[x₁，...，x_t]，对u进行查找，以获得序列中单词的标量权重；获得包含任务信息的每个输入的新的嵌入向量e_i是训练在大规模语料库上的嵌入向量；而追加一个系数u_i将e_i适配至特定任务上，得到更符合该任务的表示；由面向任务的嵌入求和得到：

对单词进行排序，并将排名前三的单词添加到种子词集中，对于给定的类C_j和单词w，基于以下方面来衡量其排名得分：

R(C_j，w)＝(LI(C_j，w)×F(C_j，w)×IDF(C_j，w))^1/3

其中，为预测为C_j类的文档数量；为预测为C_j类的文档中包含词的文档数量；是预测为C_j类的文档中词的频率；n是语料库中文档数量，f_D，w是包含词w的文档数量；

步骤三：根据不同任务选取相应的模型；通过构建种子词库，将任务信息权重作为注意力机制由编码器获得的隐状态h_i的一部分，通过自注意力机制，重新计算注意力权重：

其中q是可训练的自注意力向量；公式中q的实现方式是Dot：

步骤四：结果处理；经过模型训练和分类后，获得分类结果，将结果采用宏观平均F1得分进行对比；

使用SST-2数据集、IMDB数据集、AG数据集和MIMIC数据集以上四个数据集进行文本分类；

采用长短期记忆网络LSTM、门控循环神经网络GRU、多层感知机神经网络MLP、卷积神经网络CNN进行比较，在以上的数据集进行宏观平均F1得分对比。

2.根据权利要求1所述的一种面向任务基于注意力机制的文本分类方法，其特征在于：所述文本分类数据集具体为：

数据集为SST时，词汇量为13686，每词元的平均长度为20，训练集、开发集、测试集划分为6920/872/1821；

数据集为IMDB时，词汇量为12147，每词元的平均长度为185，训练集、开发集、测试集划分为17212/4304/4363；

数据集为AG时，词汇量为14573，每词元的平均长度为34，训练集、开发集、测试集划分为60895/7145/3960；