[发明专利]基于异构图神经网络的文本摘要生成方法及系统在审

专利信息
申请号: 202111203728.0 申请日: 2021-10-15
公开(公告)号: CN114091429A 公开(公告)日: 2022-02-25
发明(设计)人: 刘培玉;金盾;李亚辉;朱振方 申请(专利权)人: 山东师范大学
主分类号: G06F40/205 分类号: G06F40/205;G06F40/258;G06F40/126;G06K9/62;G06N3/04;G06N3/08
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 构图 神经网络 文本 摘要 生成 方法 系统
【说明书】:

发明公开了基于异构图神经网络的文本摘要生成方法及系统,包括:获取待处理文档;将待处理文档的换转为对应的文档张量、句子张量和单词张量;使用文档张量、句子张量和单词张量,对异构图网络的节点进行初始化;其中,异构图网络包括文档节点、句子节点和单词节点;对异构图网络的节点进行迭代更新;将迭代更新后的异构图网络的句子节点提取出来,对提取出的句子节点进行句间关系弥补;根据弥补句间关系的句子,得到最终的摘要语句。最终本申请选择融合了丰富信息的句子节点来生成最终的文档摘要。

技术领域

本发明涉及自动文本摘要技术领域,特别是涉及基于异构图神经网络的文本摘要生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。

随着社会的发展,各种各样的信息让人们应接不暇。特别地,大部分的信息往往以文本的形式存在。例如,微信中推送的公众号的文章,微博中的热搜信息以及各大新闻网站中的新闻。面对互联网中如此庞大的文本信息,仅仅依靠人工处理是不现实的。因此,本申请需要一种技术来自动提取这些文本信息的重要的一部分作为摘要以节省人们的宝贵时间。为了帮助人们节约时间,不再把宝贵的时间花费在阅读冗长的文章上,自动化文本摘要技术应运而生。

显然,自动文本摘要的目标是生成简洁的句子来替代冗长的原文。目前,自动文本摘要可以分为两种类型,一种是抽取式总结,另一种是生成式总结。抽取式摘要是指从原始文章中选择被认为是重要的原始句子,并将这些原始句子组合起来,生成最终的总结。相比之下,生成式摘要方法产生的摘要中的句子并不是简单地从原文中选取的,而是在通过模型学习原文后从零重新生成的。这两种方式各有自己的优缺点。生成式摘要的优点是生成的句子是重新组织的,可以结合原文中的各种信息来构建新的句子;而他的缺点则是生成的句子会面临着语法问题甚至真实性问题的困扰。抽取式摘要的优点是生成的句子是从原文中抽取出来,这样将不会存在语法问题和真实性的困扰;但是他的缺点也非常明显,因为最终的摘要都是从原文中选取出的原句,所以这些句子的概括性往往不强,并且比较呆板。

由于深度学习的快速发展,许多模型采用了深度神经网络的结构,如长短时记忆(LSTM),Transformer等。尽管它们取得了成功,但存在一个显著的局限性,即它们很难完全捕获长距离句子的依赖。它们只是根据原文中句子的顺序将句子加载到模型中进行训练。因此,他们无法完全理解这篇长文章的含义。它们在自动指标(如ROUGE)方面的表现已经达到了一定水平,而且似乎很难进一步提高。为了解决这个问题,许多研究人员进行了大量的实验,其中使用图神经网络进行提取摘要的方法取得了很大的进步。然而,为抽取摘要选择合适的图结构也是一项具有挑战性的任务。

发明内容

为了解决现有技术的不足,本发明提供了基于异构图神经网络的文本摘要生成方法及系统;选择使用异构图网络来建模句间关系,并在节点的更新方式上选择使用图注意力网络来更新不同粒度节点的信息。其次,本申请不再单单以句子为对象进行建模句间关系,本申请将整个文档也当做一种节点类型。这样本申请的异构图网络中存在3种节点类型:单词节点,句子节点,和文档节点。这三种节点通过图注意力机制不断的迭代更新,最终本申请选择融合了丰富信息的句子节点来生成最终的文档摘要。

第一方面,本发明提供了基于异构图神经网络的文本摘要生成方法;

基于异构图神经网络的文本摘要生成方法,包括:

获取待处理文档;将待处理文档的换转为对应的文档张量、句子张量和单词张量;

使用文档张量、句子张量和单词张量,对异构图网络的节点进行初始化;其中,异构图网络包括文档节点、句子节点和单词节点;

对异构图网络的节点进行迭代更新;

将迭代更新后的异构图网络的句子节点提取出来,对提取出的句子节点进行句间关系弥补;

根据弥补句间关系的句子,得到最终的摘要语句。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111203728.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top