[发明专利]一种基于输入共享的文本摘要生成方法在审
申请号: | 202210248412.1 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114781356A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 苏锦钿;位慧泽 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 输入 共享 文本 摘要 生成 方法 | ||
1.一种基于输入共享的文本摘要生成方法,其特征在于,包括以下步骤:
S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集;
S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,计算模型输入序列的注意力掩码矩阵;
S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
S4、使用步骤S3中得到的候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;
S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。
2.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S1中,具体如下:
获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
3.根据权利要求2所述的一种基于输入共享的文本摘要生成方法,其特征在于,获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE-1得分、ROUGE-2得分和ROUGE-L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
4.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S2中,在原文本序列前后补充代表原文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:
原文本序列表示为d={s1,s2,…,sm},其中m为文本的句子数量,每个句子si={wi1,wi2,…,win},其中n为句子si包含的单词数量,win表示句子si的第n个词语;
模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]t作为候选摘要文本表示词,[CLS]t表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;
对原文本序列处理后,得到的模型输入序列表示为:
z={CLS,w11,…,w1n,SEP,…,wm1,…,wmn,SEP,CLS1,…,CLST}
获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长;
获取模型输入序列对应的片段编码序列,对所有的[CLS]t特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布;
最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210248412.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种骨折用导向板
- 下一篇:微纳层结构的制作方法、加工装置以及电子器件