[发明专利]一种根据关键词抽取文本摘要的算法在审
申请号: | 201710777298.0 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107622046A | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 王辉 | 申请(专利权)人: | 广州慧睿思通信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 李斌 |
地址: | 511442 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 关键词 抽取 文本 摘要 算法 | ||
技术领域
本发明涉及文本内容的抽取技术领域,具体涉及一种根据关键词抽取文本摘要的算法。
背景技术
随着信息时代的发展,电子文档的数量正急剧增长。面对越来越多的文本资料,人们对文本进行选择性阅读的需求越来越高。根据关键词自动准确地抽取文本中的摘要内容是提高获取关键信息或选择性阅读的一种重要手段。
文本关键词自动提取算法已经有几十年的发展历史,目前大多数算法只关注待提取关键词的文本本身,但由于文本其本身的信息量有限,文本关键词的提取准确率受到了极大的限制。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种根据关键词抽取文本摘要的算法。
本发明的目的可以通过采取如下技术方案达到:
一种根据关键词抽取文本摘要的算法,所述的算法包括下列步骤:
S1、对文本进行段落拆分,将文本拆分成不同的段落,保存到一个集合中;
S2、针对不同的段落,依次确定关键词在段落中的起始位置;
S3、用关键词将段落拆分为不含关键词的段落集合;
S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;
S5、将抽取的摘要放入集合中;
S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。
进一步地,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体包括下列子步骤:
S401、获取关键词前的所有文字字符;
S402、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S403、获取关键词后的所有文字字符;
S404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。
进一步地,所述的关键词可根据需要选定。
进一步地,所述的关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。
进一步地,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体如下:
在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止;而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。
本发明相对于现有技术具有如下的优点及效果:
根据本发明提出的一种根据关键词抽取文本摘要的算法,对大量文本,在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。
附图说明
图1是本发明公开的一种根据关键词抽取文本摘要的算法的总体流程图;
图2是本发明中根据关键词对段落进行摘要抽取的子步骤流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种根据关键词抽取文本摘要的算法,本算法的目的是解决如何快速从文本中获取所关注的内容。
如图1所示,图1公开了一种根据关键词抽取文本摘要的算法的总体流程图,具体包括下列步骤:
S1、对文本进行段落拆分,用回车换行符将文本拆分成不同的段落,保存到一个集合中;
S2、针对不同的段落,依次确定关键词在段落中的起始位置;
S3、用关键词将段落拆分为不含关键词的段落集合;
S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;
S5、将抽取的摘要放入集合中;
S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。
执行结束后即获得了指定关键词前后指定长度的文本摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州慧睿思通信息科技有限公司,未经广州慧睿思通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710777298.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及设备
- 下一篇:一种设计决策知识的提取和表达方法