[发明专利]一种自动文本摘要方法及装置在审
| 申请号: | 202211520503.2 | 申请日: | 2022-11-30 |
| 公开(公告)号: | CN115730061A | 公开(公告)日: | 2023-03-03 |
| 发明(设计)人: | 尹文博 | 申请(专利权)人: | 太保科技有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/205;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨丽琴 |
| 地址: | 200010 上海市黄浦区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 文本 摘要 方法 装置 | ||
本申请提供了一种自动文本摘要的方法及装置,首先获取目标文档并从目标文档中获取正文文本;后将正文文本按照段落进行切割,并将切割后的各段落作为独立的信息点;再对各信息点进行语义识别得到各信息点对应的语义;然后将各信息点对应的语义与目标语义进行对比,得到语义对比结果;最后将语义对比结果一致的信息点按照预设顺序进行拼接,得到目标文档的文本摘要。利用本申请提出的方法,最终得到的文本摘要与目标语义的语义一致性更高,同时提高了文本摘要的语义完整性。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种自动文本摘要方法及装置。
背景技术
互联网技术让信息的采集和传播更加快速,使人们进入了一个信息爆炸的时代。丰富多样的信息资源一方面给人们的生活带来极大便利,但海量的信息也给人们带来很大困扰,如何从互联网中数以万亿的信息中快速取得自己想要的信息,成为一件具有挑战的事情。一般来说,未经处理的原文冗余信息过多,需要花费长时间阅读,真正需要的信息被无关信息覆盖,造成用户信息获取困难。在这个信息高速增长的互联网时代,研究一种可以用于提取文本中关键信息的自动文本摘要方法,可以提高用户的信息查询效率和阅读效率,方便人们的工作和生活。
目前自动文档摘要实现方案都是基于深度学习模型,首先通过规则对超长文本切段,然后进行摘要文本选取,这种方法首先需要设计大量的人工特征进行模型训练,训练效率很低并且泛化性差,其次该方法很容易将语义连续的语段切成两部分,造成语义完整性差即文本语义不通顺,最终得到的文本摘要并不能准确的将超长篇文本中的信息进行重要、有效地摘要提取。
发明内容
基于此,本申请提出了一种自动文本摘要方法及装置,旨在提高最终得到的文本摘要的语义完整性。
与现有技术相比,本申请具有如下有益效果:
本申请首先获取目标文档并从所述目标文档中获取正文文本;后将所述正文文本按照段落进行切割,并将切割后的各段落作为独立的信息点;再对所述各信息点进行语义识别得到所述各信息点对应的语义;然后将所述各信息点对应的语义与目标语义进行对比,得到语义对比结果;最后将所述语义对比结果一致的信息点按照预设顺序进行拼接,得到所述目标文档的文本摘要。
本申请通过先获取目标文档中的正文文本并进行正文文本的切割,然后对切割后的正文文本做语义分析,然后与目标语义做对比,最终得到文本摘要的方法,得到的文本摘要与目标语义的语义一致性更高,同时提高了文本摘要的语义完整性。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的自动文本摘要方法的一种方法流程图;
图2为本申请实施例提供的信息点拼接方法的一种方法流程图;
图3为本申请实施例提供的自动文本摘要装置的一种结构示意图。
具体实施方式
现有技术中,自动文档摘要实现方案都是基于深度学习模型,首先通过规则对超长文本切段,然后进行摘要文本选取,上述规则一般是对于文本在段落中的位置或预设文本段的长度,然后进行超长文本的切段。
经研究,现有技术使用的这种方法首先需要设计大量的人工特征进行模型训练,训练效率很低并且泛化性差,其次该方法很容易将语义连续的语段切成两部分,造成语义完整性差即文本语义不通顺,最终得到的文本摘要并不能准确的将超长篇文本中的信息进行重要、有效地摘要提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太保科技有限公司,未经太保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211520503.2/2.html,转载请声明来源钻瓜专利网。





