[发明专利]一种基于Spark互联网涉密地图检测算法在审
申请号: | 201811216505.6 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109446288A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 胡敏;崔永胜;黄宏程 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 互联网 互联网地图 地图文件 检测算法 敏感 词汇 文本 文本特征提取 自然语言处理 数据预处理 技术应用 人工检测 提取特征 统计计算 位置属性 文件数据 中文分词 自动检测 大数据 敏感度 相似度 词库 权重 检测 中文 | ||
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。
2.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述敏感词库的构建方法具体为:算法检测对象主要是地图文件,所以敏感词的类别主要是国家不宜公开地点信息词语,例如一些军事基地,大型国家基础设施地点。而且通过我们对地图POI观察有些敏感信息不是通过单个敏感词涉密,而是通过组合词语的方式,比如一个地点信息中出现“火箭”这个词语可能并不会存在涉密情况,但是如果地点信息中还包含“研究基地”这样的词语,那就有可能会存在涉密的情况。所以,我们在构建敏感词库时,不只是构建单个词语的敏感词库,还要定义一种组合词语的敏感词库,通过这两种敏感词库的构建,更加全面的检测地图中的敏感地点信息。
3.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取数据预处理后特征词的敏感度,通过计算特征词与敏感词的相似度量化特征词的敏感值,如果特征词与敏感词完全一致则量化特征词的敏感度为1,对于特征词与敏感词相似度达到一定阈值,则认为该特征词的敏感度为该相似值。通过计算特征词与敏感词的相似度计算,解决敏感词库覆盖不完全或者近义词无法识别的现象。通过计算特征词与敏感词的相似度,可以提取出敏感度高于一定阈值的词语,用于后续对该特征词的提取,从而判断该特征词对应文本的敏感性。
4.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取特征词在相应文本中所占的权重,在文本中不同的词语代表文本不同的意思,也即越能代表文本的词语其在相应文本中所占权重越大。在地图文本中,如果特征词是敏感词汇,而且其在文本中所占权重大,那么该地图文件的敏感值就相应比较高,这样对于我们后续对地图文件进行敏感等级评估有重要作用。
5.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取特征词在POI文本中的位置权值和特征词对应敏感词汇在敏感词库中的权值。经过分析地图中POI文本特征,特征词在POI文本中不同的位置具有不同的权值。本发明定义了特征词在文本中三种位置属性,即{B,I,E}分别表示特征词在POI文本首部,中间和尾部位置。另外,地图中不同的涉密地点具有的敏感度也不相同,例如军事类的敏感POI地点相应会比一些基础设施POI地点具有的敏感度高,所以我们通过定义敏感词汇的权值,来判断不同的特征词对应不同的敏感POI地点。根据不同的地理对象,对敏感词汇分配不同的权值。
6.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述地图文件敏感度计算方法为:利用3-5中定义的文本特征,通过统计计算地图附属信息和地图中POI地点信息的敏感度,然后通过这两部分联合计算出相应地图文件的敏感度。
7.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述基于Spark的互联网涉密地图检测算法具体为:首先解析出互联网地图文件中两部分文本信息,分别是地图文件附属信息和地图文件中若干POI地点信息。然后对两部分文本信息进行数据预处理,分别提取文本中的特征词以及特征词在文本中相应的属性,根据地图地点信息文本的特征,提取地图文本特征词4类特征,根据相应特征计算出地图附属信息以及地图中若干POI地点信息的敏感度,继而联合计算得到相应地图文件的敏感值,对于数据库中的地图文件,算法会根据地图文件的敏感值高低顺序输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811216505.6/1.html,转载请声明来源钻瓜专利网。