[发明专利]基于句子关联注意力机制的文本摘要生成方法有效

申请号：	201910635509.6	申请日：	2019-07-15
公开（公告）号：	CN110348016B	公开（公告）日：	2022-06-14
发明（设计）人：	郭军军;赵瑶;余正涛;黄于欣;吴瑾娟;朱恩昌;相艳	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/30;G06N3/04
代理公司：	昆明人从众知识产权代理有限公司 53204	代理人：	李晓亚
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于句子关联注意力机制文本摘要生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于句子关联注意力机制的文本摘要生成方法，其特征在于：具体步骤如下：

Step1、收集并处理新闻文本摘要数据作为训练语料、验证语料和测试语料；

Step2、对文档进行预处理，包括分词、去停用词、切分句子；

Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码，获取全文语义向量；

Step4、构建第一层门控网络，依据句子间的关联关系识别源文档中句子所占的权重；

Step5、构建第二层门控网络，依据句子的关联性对句子进行冗余约束，过滤多次重复表达的信息；

Step6、基于句子关联性注意力机制的解码算法生成摘要；

所述Step4中：

构建的第一层门控网络，是由文档中每个句子的隐层编码向量h_i和文档的向量表示d共同组建，通过构建句子与全文语义之间的关联关系识别文档中的句子的权重，门控网络的构建将促使隐层编码向量h_i包含的信息更好的传递至全文语义向量中，参与摘要的生成，第一层门控网络公式如下所示：

G₁＝σ(W₁h_i+U₁d+b₁) (1)

h_iG1＝G₁⊙h_i (2)

其中，G₁是门控向量，W₁和U₁是权重向量，b₁是偏移向量，σ代表sigmoid激活函数，操作符⊙表示按元素相乘，表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成，h_iG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态；在这个阶段，句子在文档中所占的权重将通过门控网络融入其向量表示中，提升模型对于重要句的识别能力；

所述Step5的具体步骤为：依据句子的关联性对句子进行冗余约束，第二层门控网络的输入是当前时刻的句子向量x_i与前一时刻的隐层状态h_(i-1)G1，得到新的编码表示h_iG2，在训练过程中，通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选；由于门控采用了包含句子权重的编码向量作为输入的一部分，因此本阶段同时考虑句子的重要性，冗余性对摘要生成的影响，第二层门控网络的公式如下所示：

G₂＝σ(W₂x_i+U₂h_(i-1)G1+b₂) (4)

h_iG2＝G₂⊙h_iG1 (5)

其中，G₂是门控向量，W₂和U₂是权重向量，b₂是偏移向量，σ是激活函数，和分别表示词级编码中第i个句子的前向最后一个隐层状态和后向最后一个隐层状态，h_iG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态，操作符⊙表示按元素相乘。

2.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：所述步骤Step1中，借助互联网爬虫自动获取网上的新闻文本信息作为数据来源，收集整理了22万余篇新闻文档作为实验数据，并以9:0.5:0.5的比例划分训练集、验证集、测试集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910635509.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种自动标注医学文本中实体的方法
下一篇：一种文本实体检测方法、系统及相关组件

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于句子关联注意力机制的文本摘要生成方法有效

专利文献下载