[发明专利]一种暗网空间数据采集方法及装置有效
| 申请号: | 201510438103.0 | 申请日: | 2015-07-23 |
| 公开(公告)号: | CN105138561B | 公开(公告)日: | 2018-11-27 |
| 发明(设计)人: | 刘纪平;罗安;王勇;蔡地 | 申请(专利权)人: | 中国测绘科学研究院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王术兰 |
| 地址: | 100830 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 空间 数据 采集 方法 装置 | ||
1.一种暗网空间数据采集方法,其特征在于,包括:
搭建分布式系统基础架构;
在所述分布式系统基础架构中,构建Web请求池;
根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;
所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;
解析采集到的所述暗网数据并抽取目标信息;
所述在所述分布式系统基础架构中,构建Web请求池,包括:
基于本体语料库动态生成用于匹配抓取内容的关键词列表;
通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;
将生成的所述Web请求存储于Web请求池;
所述方法还包括:确定采集到的所述暗网数据的数据结构类型;
根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;
根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
2.根据权利要求1所述的方法,其特征在于,所述解析采集到的所述暗网数据并抽取目标信息,包括:
采用基于可扩展标记语言XML构建的解析模板对所述暗网数据进行解析;
其中所述解析过程中,基于XPath进行细粒度节点的查找和定位,从而获取所述目标信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对抽取到的所述目标信息进行数据结构转换与格式标准化;
其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将提取的目标信息存储到MongoDB数据库中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据文本属性和空间属性分别建立索引表,为所述目标信息查询提供查询通道。
6.一种暗网空间数据采集装置,其特征在于,包括:
系统架构搭建模块,用于搭建分布式系统基础架构;
请求池构建模块,用于在所述分布式系统基础架构中,构建Web请求池;
任务分配模块,用于根据所述Web请求池中Web请求的数量和类型,动态计算任务量,并弹性分配给部署在所述分布式系统上的采集引擎;
数据采集模块,用于所述采集引擎根据分配到的采集任务基于异步I/O模型采集文本空间的暗网数据,并存储到分布式系统上的数据仓库;
信息抽取模块,用于解析采集到的所述暗网数据并抽取目标信息;
所述请求池构建模块,具体用于根据下述步骤在所述分布式系统基础架构中,构建Web请求池:基于本体语料库动态生成用于匹配抓取内容的关键词列表;
通过配置式的表单模板生成与所述关键词列表中的关键词匹配的查询表单,作为Web请求;
将生成的所述Web请求存储于Web请求池;
所述装置还包括:Web请求池扩充模块,用于确定采集到的所述暗网数据的数据结构类型;根据所述暗网数据的数据结构类型进行内容解析并抽取其所包含的数据统计信息;根据所述数据统计信息构建新的查询表单,作为Web请求存储到所述Web请求池中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:结构转换与标准化模块,用于对抽取到的所述目标信息进行数据结构转换与格式标准化;其中,所述目标信息包括属性信息,将所述属性信息与给定的数据结构进行映射,实现数据结构转换;将所述属性信息按照既定的标准进行转换和补充,得到标准化的表达;和/或,
还包括:存储模块,用于将提取的目标信息存储到MongoDB数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国测绘科学研究院,未经中国测绘科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510438103.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





