[发明专利]非结构化文本中提取漏洞信息的方法在审
申请号: | 201610857283.0 | 申请日: | 2016-09-27 |
公开(公告)号: | CN107871078A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 达小文;毛俐旻;吴明杰;温泉;常承伟;陈志浩;谢梅 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 中国兵器工业集团公司专利中心11011 | 代理人: | 张然 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 提取 漏洞 信息 方法 | ||
技术领域
本发明涉及网络安全技术领域,特别涉及一种非结构化文本中提取漏洞信息的方法。
背景技术
随着互联网技术的飞速发展,Web信息已经发展成一个全球性、分布性和共享性的资源,其中包含了数以万计的已经公布的安全漏洞信息,并且每天还在不断更新。漏洞信息是众多安全研究人员成果的体现,获取更多新的漏洞信息使得在攻击和防御方面变得更加主动,有效提高单位、企业乃至国家的网络安全防护和反制能力。漏洞信息提取是指从Web页面中抽取出指定的漏洞信息以形成结构化漏洞数据的过程。
当前漏洞信息的提取大多是从权威漏洞数据库(结构化的文本信息)中提取,提取的漏洞信息过于陈旧,不能掌握最新的漏洞信息;二是单纯从已知漏洞库中提取信息意义不明显,所提取的漏洞信息是已有漏洞库的子集。通常,最新的漏洞信息会出现在安全厂商的公告、软件厂商的修补公告、安全人员的博客及邮件列表中,这些信息通常以非结构化的文本段落展现,针对这些文本段落进行漏洞信息的提取可以获取最新的漏洞信息,帮助完善自己构建的漏洞库。
发明内容
本发明公开了一种非结构化文本中提取漏洞信息的方法,用于解决上述现有技术的问题。
本发明一种非结构化文本中提取漏洞信息的方法,其中,包括:建立漏洞领域概念表,漏洞领域概念表包括漏洞相关的词汇;获取漏洞信息文本;提取漏洞信息文本中的词汇,将其与漏洞领域概念表进行比对,根据比对结构获取漏洞信息。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,包括:对文本进行分词处理,得到若干个词汇,然后将词汇依次与漏洞领域概念进行比对,当发现多个与漏洞领域概念相近的词汇时,就认为该文本段描述的内容与漏洞有关。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,得到英语词汇的方法包括:按照空格及标点符号分词,当碰到一个空格或标点符号就分出一个词;忽略对文本的特征没有实质性的影响的修饰词。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,得到中文词汇的方法包括:将混杂的英文直接分离出来,分离出来的部分用空字符代替;通过中文词汇库依次向后查询,选取首部两个字作为一个词汇,若中文词汇库中存在此词汇,则将其作为分词记录下来,并尝试向后推移一个字,若还是一个有意义的词汇,则继续往后推移,直到推移多个字组成的词汇在中文词汇库中查询不到时,将最长的词汇作为一个分词取出。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:建立一个句式库,该句式库包含英文和中文的漏洞相关的常用句式;将得到的词汇的所对应的语句与句式库中的语句进行匹配,如匹配成功,则根据句式查找其他漏洞属性。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,包括:将一段文本当作一个字符串,将事先构建好的漏洞领域概念依次与文本字符串进行匹配,若发现与漏洞领域概念意思相近的词汇就进行提取,并记录该词汇在原始文本中的位置,当提取一定数量的词汇时,就认为该段文本描述的为漏洞有关信息。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:建立一个句式库,该句式库包含英文和中文常用句式;将词汇的所对应的语句与句式库中的语句进行匹配,如匹配成功,则根据句式查找其他漏洞属性。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,还包括:获取漏洞信息后,最后将提取的所有漏洞信息按照漏洞属性存储到数据库中。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,获取漏洞信息文本包括:安全公司网站、厂商网站、安全论坛和安全研究员博客的网站的URL,通过HTML解析各URL对应的网页,过滤其中的图片及样式,提取页面中的所有文本段落信息。。
根据本发明的非结构化文本中提取漏洞信息的方法的一实施例,其中,提取漏洞信息文本中的词汇后,还将查找提取的词汇的所对应的语句,分析语句的句式,根据句式查找漏洞信息。
综上,本发明非结构化文本中提取漏洞信息的方法,能够高效完善已构建的漏洞库。
附图说明
图1所示为文本信息中提取漏洞信息方法的一实施例的示意图;
图2所示为文本信息中提取漏洞信息方法的另一实施例的示意图;
图3所示为本发明非结构化文本中提取漏洞信息的方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610857283.0/2.html,转载请声明来源钻瓜专利网。