[发明专利]一种基于Spark互联网涉密地图检测算法在审

专利信息
申请号: 201811216505.6 申请日: 2018-10-18
公开(公告)号: CN109446288A 公开(公告)日: 2019-03-08
发明(设计)人: 胡敏;崔永胜;黄宏程 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/29 分类号: G06F16/29;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征词 互联网 互联网地图 地图文件 检测算法 敏感 词汇 文本 文本特征提取 自然语言处理 数据预处理 技术应用 人工检测 提取特征 统计计算 位置属性 文件数据 中文分词 自动检测 大数据 敏感度 相似度 词库 权重 检测 中文
【说明书】:

发明涉及一种基于Spark的互联网涉密地图检测算法,属于大数据技术应用、自然语言处理领域。该方法首先通过数据预处理,对地图中文本数据进行中文分词,提取地图文件特征词;然后进行文本特征提取,主要提取特征词与敏感词汇相似度、特征词在文本中的权重、特征词在POI文本中的位置属性、特征词对应敏感词汇在敏感词库中的权值四种特征;最后,通过前面提取的特征,经过统计计算得到相应地图文件敏感度。本发明结合互联网地图文件数据爬取方法,能够实现互联网涉密地图自动检测,加快对互联网问题地图检测效率,减轻人工检测互联网地图压力。

技术领域

本发明属于大数据技术应用、自然语言处理领域,主要涉及互联网地图敏 感信息检测方法,是一种基于Spark互联网涉密地图检测算法研究。

背景技术

随着互联网与信息技术的迅速发展,电子地图服务已经成为人们生活中不 可获缺的一部分,然而网络中出现大量的电子地图,在给人们生活提供便利的 同时,也出现了一些不容忽视的问题。比如,国家地理信息的安全性问题,2015 年9月,国家测绘地理信息局检查国内外大型商业网站、论坛、微博中的地理 信息1.3万多条,发现存在“问题地图”服务275个,“问题地图”图片321 个,违规兴趣点(point of interest,POI)标注2336个。地图涉密的主要载体 是地图中违规标注POI信息,POI包含名称、经纬度等信息,一个POI可以表示一栋房子、一间商铺,同样可以表示为一个军事基地、军事禁区等。因此如 果电子地图中标注了涉密POI信息,并公布在互联网上,将会严重损害国家 利益,危害国家安全。

针对互联网地图涉密性检测,有研究通过结合矢量数字地图中的敏感位置 信息量、敏感符号信息量、敏感几何信息量、敏感拓扑信息量、敏感注记信息 量以及敏感属性信息量综合计算得到矢量数字地图的敏感信息量,从而评估数 字地图的敏感等级。也有研究通过考虑计算地图中的POI敏感度来衡量地图 文件的敏感值,从行政管理和软件识别技术两个方面提出了相应的解决方案。 目前国内涉密地图检测研究还比较少,但是,在敏感词检测方面有许多相关研 究,例如有通过建立敏感词库,中文分词,串匹配检测邮件中敏感词,从而判 定邮件的敏感等级。也有人提出通过提取话题文本特征词,结合敏感词汇库基于条件随机场检测模型,对待测文档的特征项进行敏感性标注,以及提出基于 核方法的敏感信息检测模型。

上述方法对于地图各属性信息量提取比较困难,地图敏感性检测难度 大。而且,上述对于邮件或文档敏感性检测,主要是通过特征词与敏感词的直 接匹配方式检测,但这种方式会存在敏感词覆盖不全面或者近义词无法识别的 问题。因此,我们提出通过计算特征词与敏感词的相似度,来计算特征词语的 敏感性。由于,我们的检测对象是地图中的POI短文本,所以根据地点POI 属性另外提取3种特征,特征词在文本中的权重、特征词在POI文本中的位 置属性以及特征词对应敏感词汇在敏感词库中的权值,通过上述的4种特征联合计算地图POI的敏感度。另外,互联网地图文件一般会带有一些附属信息, 这也作为一种地图涉密性检测的属性。

随着互联网技术的飞速发展,各行各业数据呈现爆发式增长,相应的网 络中地图数据也在迅速增长,使用传统的单机处理模式已经无法满足需求。分 布式处理技术极大的推动了大数据的分析和处理,Spark和Hadoop是目前比 较流行的分布式并行计算框架。我们采用Spark作为涉密地图检测的大数据处 理框架,因为Spark不仅具有Hadoop中MapReduce的优点,还是基于内存计 算,并且具有调度优化机制和更加丰富的算子表达式,人们基于Spark也做了 许多相关研究。

通过考虑地图中标注地点POI和地图文件附属信息,分别提取文本的敏 感信息,最后综合计算地图文件的敏感等级。本文提出一种基于Spark的互联 网涉密地图检测算法,不仅提高了地图检测的准确性,同时提高了地图检测的 时间性能。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811216505.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top