[发明专利]漏洞厂商名称的匹配方法有效
申请号: | 202111027098.6 | 申请日: | 2021-09-02 |
公开(公告)号: | CN113468315B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 卢敏;沈传宝;吴璇;万会来 | 申请(专利权)人: | 北京华云安信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30;G06F40/253 |
代理公司: | 北京华专卓海知识产权代理事务所(普通合伙) 11664 | 代理人: | 王一 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 漏洞 厂商 名称 匹配 方法 | ||
本公开的实施例提供了漏洞厂商名称的匹配方法、装置、设备和计算机可读存储介质。所述方法包括获取用户输入的漏洞描述信息;对所述漏洞描述信息进行分词处理,得到一个或多个标识词;确定所述标识词与已构建的漏洞厂商简称集合中的简称的相似度;基于所述相似度和相应的厂商简称对应的权重值,确定得分最高的厂商简称;将所述得分最高的厂商简称对应的厂商全称,作为所述漏洞描述信息对应的漏洞厂商全称。以此方式,实现了对漏洞所属厂商和产品的智能匹配,大幅节省了人工匹配的工作量。
技术领域
本公开的实施例一般涉及大数据技术领域,并且更具体地,涉及漏洞厂商名称的匹配方法、装置、设备和计算机可读存储介质。
背景技术
在实际应用中,为表达的简洁,对于全称较长的名称,一般使用简称的方式进行描述,特别是在字数要求严格的文本中,往往采用简称的形式进行记载,比如深圳市腾讯计算机系统有限公司的简称为腾讯,这种用公司全称的某一部分作为简称很容易通过字符串包含的方式来匹配。但是很多公司的简称是其它形式,比如中国银行股份有限公司的简称为中行,中国石油化工有限公司的简称为中石化,这种取公司全称中不同部分拼接而来的简称很难直接通过字符串模糊匹配取得较好的效果。另外有些公司的简称可能存在多种,比如中国东方航空有限公司的简称可以为东航,也可以为东方航空。
总之,各式各样的简称形式导致字符串匹配时很难正确识别。传统的解决办法通常是维护一个公司全称和简称的 Mapping 关系作为常识库,但如果仅仅依靠常识库来解决,由于公司数量众多而且随时间而变化,维护和更新常识库就会成为一个很大的问题。
发明内容
根据本公开的实施例,提供了一种漏洞厂商名称的匹配方案。
在本公开的第一方面,提供了一种漏洞厂商名称的匹配方法。该方法包括:获取用户输入的漏洞描述信息;
对所述漏洞描述信息进行分词处理,得到一个或多个标识词;
确定所述标识词与已构建的漏洞厂商简称集合中的简称的相似度;
基于所述相似度和相应的厂商简称对应的权重值,确定得分最高的厂商简称;将所述得分最高的厂商简称对应的厂商全称,作为所述漏洞描述信息对应的漏洞厂商全称。
进一步地,所述漏洞厂商简称集合包括第一漏洞厂商简称集合和第二漏洞厂商简称集合;所述漏洞厂商简称集合中包括每一个漏洞简称对应的权重值;
其中,所述第一漏洞厂商简称集合,通过如下方式进行构建:
获取漏洞厂商名称样本数据集;所述漏洞厂商名称样本数据集包括至少一条漏洞厂商全称;
对所述漏洞厂商名称样本数据集进行分词,得到一个或多个词;
根据预设的提取规则对所述一个或多个词进行提取,得到第一漏洞厂商简称集合;
所述第二漏洞厂商简称集合,通过漏洞常识库进行构建;所述漏洞常识库包括各漏洞简称以及与其对应的漏洞全称。
进一步地,所述对所述漏洞厂商名称样本数据集进行分词处理,得到一个或多个词包括:
通过预设的分词词典,将所述漏洞厂商名称样本数据集中的漏洞厂商名称切分为多个词;
基于所述多个词,构建分词的有向无环图;
基于所述有向无环图,构建所述漏洞厂商名称样本的切分组合,得到一个或多个词。
进一步地,所述对所述漏洞描述信息进行分词处理,得到一个或多个标识词包括:
对所述漏洞描述信息进行预处理,去除干扰信息,统一文本格式;
通过分词工具,对预处理后的漏洞描述信息进行分词处理,得到一个或多个标识词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华云安信息技术有限公司,未经北京华云安信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111027098.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电线电缆的固定架
- 下一篇:基于规则引擎的规则计算方法及装置