[发明专利]非结构化文本中提取漏洞信息的方法在审

专利信息
申请号: 201610857283.0 申请日: 2016-09-27
公开(公告)号: CN107871078A 公开(公告)日: 2018-04-03
发明(设计)人: 达小文;毛俐旻;吴明杰;温泉;常承伟;陈志浩;谢梅 申请(专利权)人: 北京计算机技术及应用研究所
主分类号: G06F21/56 分类号: G06F21/56
代理公司: 中国兵器工业集团公司专利中心11011 代理人: 张然
地址: 100854*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结构 文本 提取 漏洞 信息 方法
【说明书】:

技术领域

发明涉及网络安全技术领域,特别涉及一种非结构化文本中提取漏洞信息的方法。

背景技术

随着互联网技术的飞速发展,Web信息已经发展成一个全球性、分布性和共享性的资源,其中包含了数以万计的已经公布的安全漏洞信息,并且每天还在不断更新。漏洞信息是众多安全研究人员成果的体现,获取更多新的漏洞信息使得在攻击和防御方面变得更加主动,有效提高单位、企业乃至国家的网络安全防护和反制能力。漏洞信息提取是指从Web页面中抽取出指定的漏洞信息以形成结构化漏洞数据的过程。

当前漏洞信息的提取大多是从权威漏洞数据库(结构化的文本信息)中提取,提取的漏洞信息过于陈旧,不能掌握最新的漏洞信息;二是单纯从已知漏洞库中提取信息意义不明显,所提取的漏洞信息是已有漏洞库的子集。通常,最新的漏洞信息会出现在安全厂商的公告、软件厂商的修补公告、安全人员的博客及邮件列表中,这些信息通常以非结构化的文本段落展现,针对这些文本段落进行漏洞信息的提取可以获取最新的漏洞信息,帮助完善自己构建的漏洞库。

发明内容

本发明公开了一种非结构化文本中提取漏洞信息的方法,用于解决上述现有技术的问题。

本发明一种非结构化文本中提取漏洞信息的方法,其中,包括:建立漏洞领域概念表,漏洞领域概念表包括漏洞相关的词汇;获取漏洞信息文本;提取漏洞信息文本中的词汇,将其与漏洞领域概念表进行比对,根据比对结构获取漏洞信息。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,包括:对文本进行分词处理,得到若干个词汇,然后将词汇依次与漏洞领域概念进行比对,当发现多个与漏洞领域概念相近的词汇时,就认为该文本段描述的内容与漏洞有关。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,得到英语词汇的方法包括:按照空格及标点符号分词,当碰到一个空格或标点符号就分出一个词;忽略对文本的特征没有实质性的影响的修饰词。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,得到中文词汇的方法包括:将混杂的英文直接分离出来,分离出来的部分用空字符代替;通过中文词汇库依次向后查询,选取首部两个字作为一个词汇,若中文词汇库中存在此词汇,则将其作为分词记录下来,并尝试向后推移一个字,若还是一个有意义的词汇,则继续往后推移,直到推移多个字组成的词汇在中文词汇库中查询不到时,将最长的词汇作为一个分词取出。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:建立一个句式库,该句式库包含英文和中文的漏洞相关的常用句式;将得到的词汇的所对应的语句与句式库中的语句进行匹配,如匹配成功,则根据句式查找其他漏洞属性。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,包括:将一段文本当作一个字符串,将事先构建好的漏洞领域概念依次与文本字符串进行匹配,若发现与漏洞领域概念意思相近的词汇就进行提取,并记录该词汇在原始文本中的位置,当提取一定数量的词汇时,就认为该段文本描述的为漏洞有关信息。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:建立一个句式库,该句式库包含英文和中文常用句式;将词汇的所对应的语句与句式库中的语句进行匹配,如匹配成功,则根据句式查找其他漏洞属性。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:获取漏洞信息后,最后将提取的所有漏洞信息按照漏洞属性存储到数据库中。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,获取漏洞信息文本包括:安全公司网站、厂商网站、安全论坛和安全研究员博客的网站的URL,通过HTML解析各URL对应的网页,过滤其中的图片及样式,提取页面中的所有文本段落信息。。

根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,提取漏洞信息文本中的词汇后,还将查找提取的词汇的所对应的语句,分析语句的句式,根据句式查找漏洞信息。

综上,本发明非结构化文本中提取漏洞信息的方法,能够高效完善已构建的漏洞库。

附图说明

图1所示为文本信息中提取漏洞信息方法的一实施例的示意图;

图2所示为文本信息中提取漏洞信息方法的另一实施例的示意图;

图3所示为本发明非结构化文本中提取漏洞信息的方法的流程图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610857283.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top