[发明专利]一种自动文本摘要生成方法、系统、计算机设备和存储介质在审
申请号: | 202110921956.5 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113626584A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 郑超;窦凤虎;张欢;顾钊铨;王乐;张登辉;韩伟红 | 申请(专利权)人: | 中电积至(海南)信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 李立 |
地址: | 571924 海南省海口市澄迈县老城*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 文本 摘要 生成 方法 系统 计算机 设备 存储 介质 | ||
本发明提供了一种自动文本摘要生成方法、系统、计算机设备和存储介质,根据中文文本的语言特征,构建句子特征向量抽取算法,形成文本特征向量矩阵,其中句子特征向量抽取算法利用了7种语言特征作为文本向量特征,分别是:句子相关度、句子与中心句的相似度、句子中包含关键词个数、句子中包含领域实体名词个数、句子信息度、句子长度、句子位置。接着将文本特征向量矩阵输入到本发明提出的结合注意力机制的编码‑解码模型中,通过长短记忆神经网络建模句子前后语义信息,并克服传统的统计向量表示的局限性,通过语义向量表示文本,生成更贴合人工生成技术所构建的文本摘要,提升了生成的文本摘要的质量。
技术领域
本发明涉及自然语言处理领域和信息学技术、深度学习技术领域,特别是涉及一种基于语言特征和结合注意力机制的编码-解码模型的自动文本摘要生成方法、系统、计算机设备和存储介质。
背景技术
随着人工智能技术和互联网的飞速发展,近年来网络中的文本信息呈爆发式增长,人们每天都能接收到海量的文本信息,如新闻、博客、聊天、报告、微博、论文等。信息的过载问题导致人们寻找信息时需要花费大量时间对信息进行筛选,效率低下。自动文本摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。利用文本摘要技术从大数据中压缩提炼出精炼简洁,容易阅读的文档摘要信息,可以加快人们获取信息的过程,有效解决信息过载的问题。目前,文本摘要技术被广泛应用于新闻摘要、检索系统中等应用场景。
如何从冗余、非结构化的长文本中提炼出关键信息,构成精简通顺的摘要,是文本摘要的核心问题。抽取式摘要技术则是自动文本摘要技术中效果稳定,在语法、句法上错误率低的一类方法。现有的抽取式自动文本摘要生成方法有基于传统机器学习算法的TextRank、Lead-3和聚类等方法,也有基于深度神经网络的Seq2Seq2序列标注、RNN句子重要度打分等方法。虽然由上述现有抽取式自动文本摘要生成方法生成的文本摘要在一定程度上满足了应用的需求,但抽取式摘要技术生成的自动文摘存在语义连贯性差、语句冗余等问题。目前,理解式自动文本摘要技术旨在通过神经网络模型创造性地生成文本摘要,尽可能拟合人类生成摘要的过程,尽管这一类方法在英文中得到比较好的应用,但由于中文语言本身地特殊性和复杂性,生成效果并不好。
因此,亟需提供一种在保证生成效果稳定、无语法错误的前提下,能够充分考虑到语句连贯性、语句信息量的自动文本摘要生成方法。
发明内容
本发明的目的是提供一种自动文本摘要生成方法,利用中文文本的语言特征,构建句子特征向量抽取算法,形成文本特征向量矩阵,接着将文本特征向量矩阵输入到本发明提出的结合注意力机制的编码-解码模型中,双向循环长短记忆神经网络编码出中间语义向量,最后通过结合注意力机制与单向长短记忆神经网络解码中间语义向量,实现文本摘要的自动抽取。
为了实现上述目的,有必要针对上述技术问题,提供了一种自动文本摘要生成方法、系统、计算机设备及存储介质。
第一方面,本发明实施例提供了一种自动文本摘要生成方法,所述方法包括以下步骤:
获取原始文本和神经网络模型;
将原始文本进行切分和压缩,得到新的文本表示;
将新的文本经过句子特征向量抽取,得到文本向量矩阵;
将文本矩阵输入至双向长短记忆神经网络模型中,将文本矩阵编码成文本语义矩阵;
将文本语义矩阵输入至注意力模型和长短记忆神经网络模型中,将文本语义矩阵解码成文本向量矩阵,文本向量反映射得到文本摘要。
进一步地,所述的文本切分和压缩的步骤包括:
将文本以句子为单位进行切分,生成句子集合;
统计句子长度,并计算句子平均长度;
对于长度大于句子平均长度两倍的句子进行再切分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司,未经中电积至(海南)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921956.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽轮机叶片叉型叶根检测装置与方法
- 下一篇:一种头部三维重建方法及设备