[发明专利]一种基于Spark互联网涉密地图检测算法在审
申请号: | 201811216505.6 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109446288A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 胡敏;崔永胜;黄宏程 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 互联网 互联网地图 地图文件 检测算法 敏感 词汇 文本 文本特征提取 自然语言处理 数据预处理 技术应用 人工检测 提取特征 统计计算 位置属性 文件数据 中文分词 自动检测 大数据 敏感度 相似度 词库 权重 检测 中文 | ||
本发明涉及一种基于Spark的互联网涉密地图检测算法,属于大数据技术应用、自然语言处理领域。该方法首先通过数据预处理,对地图中文本数据进行中文分词,提取地图文件特征词;然后进行文本特征提取,主要提取特征词与敏感词汇相似度、特征词在文本中的权重、特征词在POI文本中的位置属性、特征词对应敏感词汇在敏感词库中的权值四种特征;最后,通过前面提取的特征,经过统计计算得到相应地图文件敏感度。本发明结合互联网地图文件数据爬取方法,能够实现互联网涉密地图自动检测,加快对互联网问题地图检测效率,减轻人工检测互联网地图压力。
技术领域
本发明属于大数据技术应用、自然语言处理领域,主要涉及互联网地图敏 感信息检测方法,是一种基于Spark互联网涉密地图检测算法研究。
背景技术
随着互联网与信息技术的迅速发展,电子地图服务已经成为人们生活中不 可获缺的一部分,然而网络中出现大量的电子地图,在给人们生活提供便利的 同时,也出现了一些不容忽视的问题。比如,国家地理信息的安全性问题,2015 年9月,国家测绘地理信息局检查国内外大型商业网站、论坛、微博中的地理 信息1.3万多条,发现存在“问题地图”服务275个,“问题地图”图片321 个,违规兴趣点(point of interest,POI)标注2336个。地图涉密的主要载体 是地图中违规标注POI信息,POI包含名称、经纬度等信息,一个POI可以表示一栋房子、一间商铺,同样可以表示为一个军事基地、军事禁区等。因此如 果电子地图中标注了涉密POI信息,并公布在互联网上,将会严重损害国家 利益,危害国家安全。
针对互联网地图涉密性检测,有研究通过结合矢量数字地图中的敏感位置 信息量、敏感符号信息量、敏感几何信息量、敏感拓扑信息量、敏感注记信息 量以及敏感属性信息量综合计算得到矢量数字地图的敏感信息量,从而评估数 字地图的敏感等级。也有研究通过考虑计算地图中的POI敏感度来衡量地图 文件的敏感值,从行政管理和软件识别技术两个方面提出了相应的解决方案。 目前国内涉密地图检测研究还比较少,但是,在敏感词检测方面有许多相关研 究,例如有通过建立敏感词库,中文分词,串匹配检测邮件中敏感词,从而判 定邮件的敏感等级。也有人提出通过提取话题文本特征词,结合敏感词汇库基于条件随机场检测模型,对待测文档的特征项进行敏感性标注,以及提出基于 核方法的敏感信息检测模型。
上述方法对于地图各属性信息量提取比较困难,地图敏感性检测难度 大。而且,上述对于邮件或文档敏感性检测,主要是通过特征词与敏感词的直 接匹配方式检测,但这种方式会存在敏感词覆盖不全面或者近义词无法识别的 问题。因此,我们提出通过计算特征词与敏感词的相似度,来计算特征词语的 敏感性。由于,我们的检测对象是地图中的POI短文本,所以根据地点POI 属性另外提取3种特征,特征词在文本中的权重、特征词在POI文本中的位 置属性以及特征词对应敏感词汇在敏感词库中的权值,通过上述的4种特征联合计算地图POI的敏感度。另外,互联网地图文件一般会带有一些附属信息, 这也作为一种地图涉密性检测的属性。
随着互联网技术的飞速发展,各行各业数据呈现爆发式增长,相应的网 络中地图数据也在迅速增长,使用传统的单机处理模式已经无法满足需求。分 布式处理技术极大的推动了大数据的分析和处理,Spark和Hadoop是目前比 较流行的分布式并行计算框架。我们采用Spark作为涉密地图检测的大数据处 理框架,因为Spark不仅具有Hadoop中MapReduce的优点,还是基于内存计 算,并且具有调度优化机制和更加丰富的算子表达式,人们基于Spark也做了 许多相关研究。
通过考虑地图中标注地点POI和地图文件附属信息,分别提取文本的敏 感信息,最后综合计算地图文件的敏感等级。本文提出一种基于Spark的互联 网涉密地图检测算法,不仅提高了地图检测的准确性,同时提高了地图检测的 时间性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811216505.6/2.html,转载请声明来源钻瓜专利网。