[发明专利]基于命名实体识别附加标签和先验知识的文本摘要生成方法有效
申请号: | 202110503654.6 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113139050B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 强保华;汪晨;王玉峰;彭博;李宝莲;陈金勇 | 申请(专利权)人: | 桂林电子科技大学;中国电子科技集团公司第五十四研究所 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/295;G06N3/04;G06N3/08;G06F40/211;G06F40/30 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 白洪 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 命名 实体 识别 附加 标签 先验 知识 文本 摘要 生成 方法 | ||
本发明公开了一种基于命名实体识别附加标签和先验知识的文本摘要生成方法,该方法包括:在原始文本的基础上添加命名实体识别的附加标签;将添加附加标签的文本基于字符进行处理,同时根据原始文本生成对应的向量字典并对文本向量化;将得到的向量化文本作为生成式摘要模块的输入进行编码,解码阶段引入注意力机制,获取全局信息;使用原始文本中的词集构建先验知识库,与得到的序列做加权平均;解码阶段得到的结果通过集束搜索方法进行文本还原;删除标签输出原始文本的摘要结果。本发明中附加标签的添加使得实体类识别更准确,生成的摘要不会出现名称不全现象;先验知识的引入使得生成的摘要语义更加贴近原文,减少了出现与文本相关性不大的语句。
技术领域
本发明涉及计算机自然语言处理技术领域,具体涉及一种基于命名实体识别附加标签和先验知识的文本摘要生成方法。
背景技术
文本自动摘要(Text Summarization)是指通过自动分析一篇或多篇给定的文章,根据一些语法以及句法等信息分析其中的关键信息,通过压缩、精简得到一篇可读性较高且简明扼要的文章摘要,这个摘要可以由文章中的关键句构成,也可以重新生成,其长度不超过或远少于原文本的一半,根据摘要的生成方法可以分为抽取式摘要、生成式摘要和压缩式摘要。抽取式摘要简单来说就是抽取出主旨句以及与主旨密切相关的句子组成摘要,内容全部来自于原文,此方法易于实现且每个摘要句内部语句通顺,但是得到的摘要内容冗长,连贯性难以保证。生成式摘要是在理解原文意思的基础上,对文本进行深层次信息的进行挖掘,根据要点信息进行信息融合,该方法可以像人工撰写摘要一样完成摘要内容,得到更加凝练的摘要,所以得到了广泛的应用与研究。由于文本内容更新太快,尤其是新闻类文本,涉及过多的人名、地名、组织名等,面对全新的文本内容,即使是生成式自动摘要也难以保证可读性和连贯性,甚至有些人名、地名都识别不全,严重影响摘要效果;而且摘要的生成是逐字生成,人名、地名识别错误会导致后续误差累计,增加摘要里与原文相关低的语句。
发明内容
为克服上述缺陷,本发明提供一种基于命名实体识别附加标签和先验知识的文本摘要生成方法,在原始文本基础上添加命名实体识别的附加标签以及引入先验知识生成摘要。附加标签的添加使得摘要的实体类识别更准确,生成的摘要不会出现人名、地名、机构名不全导致的语句不连贯问题;先验知识的引入使得生成的摘要语义更加贴近原文,提高了生成摘要的准确性,减少了生成的摘要里出现与文本相关性不大的语句。
本发明的技术方案主要包括以下步骤:
S1:输入待生成摘要的原始文本。
S2:将原始文本输入到命名实体识别(NER)模块中进行实体标记,在原始文本的基础上添加命名实体识别的附加标签。
S3:将添加附加标签的文本基于字符进行处理(文本中的英语单词和附加标签不处理),同时根据原始文本生成对应的向量字典并对文本向量化表示。
S4:将S3得到的向量化文本作为生成式摘要模块的输入,将输入进行编码,解码阶段引入注意力机制,获取全局信息。
S5:使用原始文本中的词集构建先验知识库,与S4得到的序列做加权平均。
S6:解码阶段得到的结果通过集束搜索方法进行文本还原,得到还原的文本摘要结果。
S7:由于生成摘要阶段添加了附加标签,得到的文本摘要结果包含标签,删除标签输出原始文本的摘要结果。
具体实施方式
下面通过具体的实施例,对本发明做进一步的详细说明。
实施例技术方案主要步骤如下:
S1:输入待生成摘要的原始文本。
S2:将原始文本输入到命名实体识别(NER)模块中进行实体标记,在原始文本的基础上添加命名实体识别的附加标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学;中国电子科技集团公司第五十四研究所,未经桂林电子科技大学;中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503654.6/2.html,转载请声明来源钻瓜专利网。