[发明专利]一种基于XLNet的文本摘要自动生成方法有效
申请号: | 201911277060.7 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111061861B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 尚凡华;沈雄杰;刘红英;张怀宇;陈孙虎;王钟书 | 申请(专利权)人: | 西安艾尔洛曼数字科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/36;G06F40/289;G06F18/214;G06N3/0455;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710065 陕西省西安市高新区丈*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xlnet 文本 摘要 自动 生成 方法 | ||
本发明公开了一种基于XLNet的文本摘要自动生成方法,主要解决文本摘要自动生成过程中,句子流畅性和准确性不高的问题。其实现过程是:获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer‑XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本发明生成的摘要的具有较好的准确性和语言流畅性,具有一定的实用价值。
技术领域
本发明属于文本处理技术领域,具体涉及一种基于XLNet的文本摘要自动生成方法。
背景技术
随着计算机信息技术的飞速发展,互联网上的文本信息正以指数级的速度爆炸式增长。在这个效率至上的社会,如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。因此,近年来自动文本摘要逐渐成了自然语言处理领域的研究热点,该技术旨在利用计算机自动地提取文本重要信息、压缩文章内容从而提高用户获取信息的效率,在新闻网站、搜索引擎、业务分析、市场评估等许多领域都有非常大应用前景。
自动摘要生成的方法主要可分为两种:抽取式和生成式。前者通过提取文档中存在的关键词或关键句生成摘要,后者挖掘文本的抽象语义表示,并使用自然语言生成方法来生成。目前,抽取式已经比较成熟,但是抽取质量及内容的流畅度却差强人意。
伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型,它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(Recurrent Neural Network)组成,负责把原文编码为一个向量;解码器负责从这个向量中提取信息,获取语义并生成文本摘要。但是由于长距离依赖问题的存在,基于RNN的生成式模型往往很难处理长文本摘要。另外,RNN的递归机制使得它无法并行计算,从而限制了生成摘要的速度。
2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是Transformer仍然不够完美,在语言建模中仍然受到固定长度上下文的限制。针对此问题,Dai等人引入了段间循环机制,并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。随后,基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert,成为了目前性能最好的自然语言处理模型。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于XLNet的文本摘要自动生成方法,获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer-XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。
本发明采用以下技术方案:
一种基于XLNet的文本摘要自动生成方法,包括以下步骤:
S1、获取成对的文本、摘要数据,构建训练集T;
S2、构建一个包含所有常见词汇和字符的词典D;
S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;
S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安艾尔洛曼数字科技有限公司,未经西安艾尔洛曼数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911277060.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种装配式展台及其安装方法
- 下一篇:用于移动终端的超薄型三维采集的模组