[发明专利]基于多任务学习的篇章级文本连贯性分类方法有效

申请号：	202110667388.0	申请日：	2021-06-16
公开（公告）号：	CN113312452B	公开（公告）日：	2022-05-27
发明（设计）人：	赵铁军;夏名宏;朱聪慧;徐冰;杨沐昀;曹海龙	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	孙莉莉
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于任务学习篇章文本连贯性分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多任务学习的篇章级文本连贯性分类方法，其特征在于：具体包括以下步骤：

步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示；

步骤2、将句子向量作为输入，使用Transformer模型，得到篇章级文本的整体向量表示；

步骤3、构建句子排序任务，使用该任务对篇章级文本的整体向量表示进行调整；

步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类；

所述步骤1具体为：

将篇章级文本按照句子粒度进行划分，得到单个句子，记为{s₁，s₂，...，s_n}，n表示句子个数，将每个句子依次通过分词、词的id化和生成位置编码步骤，输入到XLNet预训练模型中，取XLNet模型最后一层的输出作为句子中每个词的向量化表示，即句s_i的输出为{w₁，w₂，...，w_m}，i＝1，2，...，n；其中，w_j为句s_i中第j个位置词的向量表示，m表示第i个句子里面词的个数；j＝1，2，...，m；为了得到句向量表示，将句中词向量进行平均池化，即

其中，v_i为句s_i的向量表示；由此，即可得到篇章中每个句子的向量表示，为{v₁，v₂，...，v_n}；

所述步骤2具体为：使用6层sub-layer组成的编码器进行文本编码；首先将篇章中每个句子的句子向量输入到Transformer模型中，进入自注意力模块，在自注意力模块中，每个输入向量通过神经网络计算得到三个不同向量：Query向量，Key向量和Value向量，三个向量分别用Q，K和V表示，随后，通过自注意力的计算公式计算每个向量的自注意力分数，并对其进行归一化，将自注意力分数通过Softmax激活函数，与对应向量相乘，得到自注意力模块的结果：

其中，d_k为归一化过程中使用的模型向量维度；

随后，通过残差模块，解决深度学习中的退化问题；最后，通过前馈神经网络，即将自注意力模块的输出作为前馈神经网络的输入，与前馈神经网络的权重矩阵相乘，便得到sub-layer的输出；最终，通过6层sub-layer，得到每个句子向量通过Transformer编码器的对应输出；在更新每个句子向量之后，使用平均池化来得到篇章级文本的整体向量表示，其维度与每个句子向量相同，但同时包含了篇章中每个句子信息与句子间的上下文信息；

所述步骤3具体为：首先，由XLNet预训练模型和Transformer编码器获得每个句子的句子向量表示，然后将由句子向量构成的数组sent_list随机打乱，记为shuffled_sent_list，遍历打乱后的数组，依次取出相邻的两个句子，并与原数组中的顺序进行对比，若与原数组中相对顺序相同，则其标签为1，若与原数组中相对顺序不同，则其标签为0；

将两个句子的向量表示拼接起来，输入到分类层中，得到分类结果，与其标签计算交叉熵损失，训练模型；

其中，针对每个句子及其标签，使用交叉熵损失进行损失计算，即在句子分数通过Sigmoid函数映射到0到1范围内后，使用公式(3)计算每个句子的句子排序损失；

loss_order＝∑_i(-y_ilogscore_i-(1-y_i)log(1-score_i)) (3)

其中，i表示第i个句子，y_i表示第i个句子的标签，score_i表示第i个句子的分数。

2.根据权利要求1所述的方法，其特征在于：所述步骤4具体为：得到篇章级文本整体向量表示后，使用三层前馈神经网络组成分类器，得到最后一层的输出后，通过Sigmoid函数计算篇章级文本的连贯性分数，从而得到该篇章级文本连贯性分类结果。

3.根据权利要求2所述的方法，其特征在于：所述多任务学习的优化过程具体步骤如下：

步骤一、将整个连贯性分类模型网络中参数初始化，并将每个loss的权重初始化为1；

步骤二、根据每个loss的权重，计算loss的加权和；

步骤三、计算梯度标准化的值，并计算每个参数的更新速度；

步骤四、根据更新速度，计算全局梯度标准化的值；

步骤五、计算梯度loss；

步骤六、计算loss对每个参数的导数；