[发明专利]一种基于语义匹配的间隙句生成的文本摘要方法在审
申请号: | 202110736638.1 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113535941A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 姜明;吴锴;张旻 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 匹配 间隙 生成 文本 摘要 方法 | ||
本发明涉及一种基于语义匹配的间隙句生成的文本摘要方法。本发明包括:S1、判断输入文本是否超过预训练模型输入长度,超过则进行截取;S2、对经过步骤S1判断处理后的输入文本进行语义上的匹配,选择匹配度最高的候选句子组进行MASK;S3、将MASK后的文本输入预训练模型进行预测生成摘要。与现有的常规方法比,利用滑动窗口指针生成网络截取长文本解决了长文本独立截断导致重要信息丢失的问题,并选择语义更加贴近源文本的句子候选组作为预训练模型输入,降低了选择句子之间的耦合程度。
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种基于语义匹配的间隙句生成的文本摘要方法。
背景技术
文本摘要是快速从海量文本信息中获取知识的重要手段,随着互联网上大量的文本以指数级别增长,自动文本摘要变得愈发重要。人工摘要需要大量人力,在文本内容庞大的情况下变得不切实际,因此,对各类文本进行一个压缩处理显得非常必要。
现有的摘要方法主要分抽取式和生成式两类。大多数抽取摘要系统是从原文中逐个打分、提取句子,甚至更小的语义单元,对句子之间的关系进行建模,然后选择几个句子形成摘要。在抽象式摘要中,通过编码器-解码器这一套架构来生成能表达文本中心思想的摘要。另外还有混合摘要方法结合了这两种主要的摘要类型。尽管已经存在各种方法,但是在句子之间的流畅性和文本的冗余信息还存在不足。
随着大规模数据集的出现,深度学习的发展,序列到序列已经成为一个主流框架,基于该框架的RNN或者CNN架构把源文本编码成一个向量,再由解码器从向量中提取信息,获取语义并生成摘要。但是受模型的输入限制,如果文本长度超过模型的最大输入标记数,文档会被独立截断,最大输入大小的摘要窗口不允许在窗口之间进行信息交流,并导致摘要不一致。
最近在大型文本语料库上使用自监督目标的预训练模型在对下游NLP任务进行微调后取得很大成果,把重要的句子进行MASK标识替换来通知模型进行预测生成。
发明内容
有鉴于此,本发明的目的在于提供一种基于语义匹配的间隙句生成的文本摘要方法,该方法通过滑动窗口的指针生成网络对长文本进行重要内容截取,控制输入预训练模型的长度,使用BERT编码候选组,选出语义最贴近源文本的一组作MASK替换输入预训练模型进行预测生成摘要。
为达到上述目的,本发明提供如下技术方案:
S1、判断输入文本是否超过预训练模型输入长度,超过则进行截取;
S2、对经过步骤S1判断处理后的输入文本进行语义上的匹配,选择匹配度最高的候选句子组进行MASK;
S3、将MASK后的文本输入预训练模型进行预测生成摘要。
进一步的,步骤S1中输入长度限制为1024个tokens,截取的具体步骤为:
S11、滑动窗口,预先计算解码器需要为每个输入窗口生成的tokens数量;让窗口{win1,win2,...,winn}的大小等于源窗口数量,由窗口长度Tw和滑动步长ss确定,使用公式(1)来确定每个窗口的权重es:
es(wini)=exp(-k(1+i·di)) (1)
其中,k和d作为定义窗口上摘要分布形状的参数,i表示第i个窗口;
解码器要为窗口wini生成的tokens数量表示为:
numi=len*es(wini) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110736638.1/2.html,转载请声明来源钻瓜专利网。