[发明专利]面向中文长文本自动摘要的全局编码方法在审
申请号: | 202010078230.5 | 申请日: | 2020-02-03 |
公开(公告)号: | CN111291534A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 奚雪峰;皮洲;曾诚;张谦;王坚;鲍观花;吴宏杰;付保川;崔志明 | 申请(专利权)人: | 苏州科技大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/289;G06F40/30;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 王玉国 |
地址: | 215513 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 中文 文本 自动 摘要 全局 编码 方法 | ||
本发明涉及面向中文长文本自动摘要的全局编码方法,先数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;再编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;再全局编码,卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H,对其经过处理得到注意力矩阵g,再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C;最后解码,编码过程输出的最后一位隐藏状态ht和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理,得到摘要文本。客观的总结中文长文档和非结构化文档。
技术领域
本发明涉及一种面向中文长文本自动摘要的全局编码方法,属于文本信息处理技术领域。
背景技术
文本摘要作为自然语言处理的一个重要分支,已经发展了几十年,能自动将文本转换成简短的摘要。随着海量数据的增长,文本摘要技术的研究成为一个热点。文本摘要可以节省搜索时间,简化搜索过程。特别是在当今信息爆炸的时代,文本摘要对于提高知识发现任务的效率是尤为重要的。已发表的研究大部分都聚焦于短文本摘要,由于中文长文本的复杂性,中文长文本自动摘要的研究还很少。
Alexander M Rush首先将深度学习方法应用于文本摘要[Rush,2015年],使用基于局部注意力的模型根据输入的文本生成摘要,并使用Rouge对摘要进行评分,然而,该方法局限于输入文本的长度和摘要的大小。在此基础上,Ramesh Nallapati引入了编码-解码架构中的注意力机制[Nallapati等,2016年]。为了引入新词,Thang Luong[2015]提出了生成器/指针模型,这个模型在解码时,从原始文档生成的词汇表中提取各个解码层生成的词汇。对于长文本摘要任务,Jeffrey Ling[2017]采用了两层分层的注意力机制,其中一层使用注意力机制从输入文档中选择一个或多个重要单词,然后通过端对端模型将其输入到第二层。用强化学习训练注意力模型,该方法实现了对长文本序列的摘要工作,但精度不高。Arman Cohan[2018]提出了一个生成式的摘要模型,其中包含一个模拟话语结构的分层编码和一个用于生成摘要的感知解码。通过对两个大型科技论文数据集的验证,实验可以生成高质量的文献摘要。
与上述英文文本摘要工作相比,近年来,中文短文本摘要领域也得到了迅速发展,LCSTS是第一个大型中文短文本数据集[Baotian Hu,2015]。文本摘要依赖于对源文本的多次输入和多层次的抽象信息,Shuming Ma和Xu Sun[2017]发现文本中存在明显的层次现象,但是在编码解码架构中没有相应的多重结构。为了解决这个问题,提出了一种多级编码来获取不同层次的文本信息。Piji Li提出了一种基于编码解码框架的文本摘要模型,该模型增加了一个深递归生成编码(DRGN)。Yongshuai Hou[2017]提出了一个基于LSTM的模型来识别高质量的文本摘要对,以构建大规模数据集。Shuming Ma提出了一种文本摘要和情感分析相结合的分层端对端学习模型。将句子归类为文本摘要的进一步概况。Junyang Lin[2018]提出了一个基于全局编码的框架,利用卷积单元,根据输入上下文的全局信息,控制从编码到解码的信息。
目前,已发表的研究大部分都聚焦于短文本摘要。由于中文长文本的复杂性,中文长文本自动摘要的研究还很少。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种面向中文长文本自动摘要的全局编码方法。
本发明的目的通过以下技术方案来实现:
面向中文长文本自动摘要的全局编码方法,特点是:包括以下步骤:
1)数据预处理,对中文长文本即源文本进行数据预处理,得到词向量;
2)编码,GRU门控循环单元接收数据预处理后的词向量,对词向量中的每个向量执行编码过程,生成隐藏状态,所有隐藏状态形成的矩阵H作为全局编码过程的输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州科技大学,未经苏州科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010078230.5/2.html,转载请声明来源钻瓜专利网。