[发明专利]一种基于Spark互联网涉密地图检测算法在审
申请号: | 201811216505.6 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109446288A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 胡敏;崔永胜;黄宏程 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Spark的互联网涉密地图检测算法,属于大数据技术应用、自然语言处理领域。该方法首先通过数据预处理,对地图中文本数据进行中文分词,提取地图文件特征词;然后进行文本特征提取,主要提取特征词与敏感词汇相似度、特征词在文本中的权重、特征词在POI文本中的位置属性、特征词对应敏感词汇在敏感词库中的权值四种特征;最后,通过前面提取的特征,经过统计计算得到相应地图文件敏感度。本发明结合互联网地图文件数据爬取方法,能够实现互联网涉密地图自动检测,加快对互联网问题地图检测效率,减轻人工检测互联网地图压力。 | ||
搜索关键词: | 特征词 互联网 互联网地图 地图文件 检测算法 敏感 词汇 文本 文本特征提取 自然语言处理 数据预处理 技术应用 人工检测 提取特征 统计计算 位置属性 文件数据 中文分词 自动检测 大数据 敏感度 相似度 词库 权重 检测 中文 | ||
【主权项】:
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811216505.6/,转载请声明来源钻瓜专利网。