[发明专利]一种基于输入共享的文本摘要生成方法在审
申请号: | 202210248412.1 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114781356A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 苏锦钿;位慧泽 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 输入 共享 文本 摘要 生成 方法 | ||
本发明公开了一种基于输入共享的文本摘要生成方法。所述方法包括以下步骤:对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,得到候选摘要数据集;得到模型输入序列,计算模型输入序列的注意力掩码矩阵;构建文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;使用候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。本发明能够减少输入到模型中的词数,在保留大部分生成效果的前提下,极大提高模型的训练速度与推理速度。
技术领域
本发明涉及深度学习和自然语言处理,尤其是涉及一种基于输入共享的文本摘要生成方法。
背景技术
自动文本摘要指用程序处理长文本,得到保留主要语义的摘要的过程。随着进入数据量飞速增长的大数据时代,能够有效减少需要阅读的文字数量的自动文本摘要方法愈加受到关注。当前自动文本摘要方法可分成两大类:生成式摘要方法和抽取式摘要方法,生成式摘要方法根据原文生成得到摘要,可生成原文未有的新词,而抽取式摘要方法则从原文中摘取部分句子或片段,组成摘要,更具连贯性。
目前主流的抽取式摘要方法多为句子级摘要抽取算法,即使用模型获取句子表征,再使用序列标注框架:通过对每个句子表征进行独立的预测是否属于摘要文本;或者使用自回归形式:每次解码获得本次需要抽取的句子,并在下次解码预测时,考虑上次抽取出的句子的影响。
当前出现了一种文档级别的抽取式摘要生成算法(Extractive Summarizationas Text Matching),即对多个候选摘要进行打分,而非句子级别打分。此方法避免了句子级方法的缺点,但多个候选摘要同时输入模型进行计算,也暴露出该方法在计算量、显存占用上的缺点,因而需要采用一种输入共享的方法,缓解该方法的缺点。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于输入共享的文本摘要抽取方法,该方法基于现有文档级抽取式摘要生成方法,通过共享文档和候选摘要的文本输入以减少显存占用量并提高训练和推理速度,通过使用多专家模块提高文档向量表征的多样性以提高效果,具有广泛的实用价值。
本发明的目的至少通过如下技术方案之一实现。
一种基于输入共享的文本摘要生成方法,包括以下步骤:
S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集;
S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,计算模型输入序列的注意力掩码矩阵;
S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
S4、损失计算与推理,使用步骤S3中得到的候选摘要得分,在训练时以候选摘要文本的真实得分监督文本摘要生成模型的训练,并以KL散度函数作为指导增大多专家模块之间的多样性,提高多专家模块的集成效果,得到训练好的文本摘要生成模型;
S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。
进一步地,步骤S1中,具体如下:
获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210248412.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种骨折用导向板
- 下一篇:微纳层结构的制作方法、加工装置以及电子器件