[发明专利]一种基于知识提取的轻量型摘要生成方法在审
申请号: | 202310330015.3 | 申请日: | 2023-03-30 |
公开(公告)号: | CN116341541A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 黄文明;刘诗月;邓珍荣;肖雁南;温雅媛;温佩芝;蓝如师 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F18/214;G06F18/2415;G06N3/0442;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 提取 轻量型 摘要 生成 方法 | ||
本发明公开了一种基于知识提取的轻量型摘要生成方法,包括文本模型的生成和文本模型的调用两个阶段。第一阶段包括文本数据的清洗与预处理;文本模型的创建;文本模型的训练与调优;文本模型的生成与获取。第二阶段包括:用户输入待生成摘要的长文本;提取用户输入长文本的特征;调用文本模型;生成用户输入的长文本的摘要。第一阶段采用机器学习的算法搭建文本模型,将提取的特征输入模型,对模型进行训练,自动优化训练参数,使模型更加准确。第二阶段,对用户输入的待生成摘要的长文本进行特征提取,调用第一阶段生成的模型,生成对应的文本摘要。本发明应用型强,应用范围广,尤其在新闻处理、文案处理等方面将会有很大的应用。
技术领域
本发明属于自然语言处理技术领域,具体涉及Bert模型、BiLSTM模型等深度学习模型,基于知识提取实现长文本生成轻量型摘要过程。
背景技术
近年来,互联网的快速发展给人们带来了海量信息的同时也带来了信息过载的问题。因此研究如何在海量信息中快速获得关键信息变得愈发重要,而自动文本摘要技术正是相关研究的重点领域。随着深度学习相关技术的发展,出现了很多中文文本摘要生成的应用研究。摘要生成是将一段文本压缩成包含原文主要信息的简短版本的任务,文本摘要技术一般可以分为两种提取方法:抽取式文摘,从输入文档抽取最适合的单词或句子并将它们总结起来。生成式文摘,自由生成摘要和产生新的单词和句子。抽取式算法更容易,因为复制源文档中文本块可以确保语法和准确性。
随着神经网络技术的发展,文本摘要研究的重点也逐渐从抽取式转向生成式。针对于生成式文本摘的技术最初是从机器翻译而发展起来的,它为文本摘要领域开启了新的研究道路。与抽取式自动文本摘要相比,基于生成式的自动文本摘要往往能够生成简洁、灵活和多样化的摘要,更加符合人类的撰写习惯,其摘要的生成过程也更加符合人类对一篇文档进行总结和概括过程,具有明显的优势。生成式文本摘要所生成的文本语义更加通顺,而且还能生成原文中没有出现的新词,有很大的潜力生成高质量的摘要。然而,生成式自动文本摘要方法仍然存在不少的问题,因此就需要对生成式自动文本摘要技术进行深入研究,从而生成高质量的摘要。
抽取式摘要方法发展相比于生成式摘要早许多,因此技术相对更成熟,所以在业界的应用也相对更加广泛。近些年来随着深度学习技术的发展,基于Seq2Seq模型的深度学习方法被许多研究者应用到生成式摘要上进行研究。相比于抽取式摘要方法,生成式摘要方法可以充分利用文本的上下文语义特征,生成连贯的摘要,并且生成符合人类思维形式的摘要。但是由于基于Seq2Seq模型结构的原因,该模型在进行文本摘要生成时会出现未登录词、重复值、语义表示不准确以及关键信息不足等问题,从而影响到生成摘要的质量,另外基于深度学习的方法也极度依赖于待处理数据集的质量。同时,中文的生成式摘要生成方面,相对于英文的摘要生成还存在一定的欠缺,而且中文的生成式摘要生成的模型均较大,并不利于模型的迁移应用。因此,在基于深度学习的生成式摘要模型的研究时需要针对这些问题进行相应的优化改进,从而提升生成式摘要模型所生成的摘要质量。
发明内容
本发明针对目前生成式摘要模型的缺陷,提出一种基于知识提取的轻量型摘要生成方法,首先对文本进行数据预处理,生成文本句向量;其次利用知识提取技术对候选模型进行知识提取;最后生成所需的生成式摘要模型。
为实现上述目的,本发明一种基于知识提取的轻量型摘要生成方法,包括以下两个阶段:
阶段1:通过深度学习相关算法,生成文本摘要模型;
阶段2:获取用户输入,调用文本摘要模型,生成所对应的文本摘要。
阶段1包括的具体步骤如下:
步骤1.1:文本数据的预处理;
步骤1.2:文本摘要模型构建;
步骤1.3:文本摘要模型训练;
步骤1.4:文本摘要模型评估与调优;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310330015.3/2.html,转载请声明来源钻瓜专利网。