[发明专利]一种基于xml数据库的定点暗网情报挖掘分析系统的设计方法在审

专利信息
申请号: 202010178386.0 申请日: 2020-03-14
公开(公告)号: CN113392298A 公开(公告)日: 2021-09-14
发明(设计)人: 不公告发明人 申请(专利权)人: 天津挺哥网络科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/2458
代理公司: 暂无信息 代理人: 暂无信息
地址: 300000 天津市滨海新区自贸试验区(中心商务区)*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xml 数据库 定点 情报 挖掘 分析 系统 设计 方法
【说明书】:

发明提出一种新的基于xml数据库的定点暗网情报挖掘分析系统。该系统先启动暗网爬虫系统,该系统能够从暗网定点网站或者明网上挖掘采集网页数据,然后将挖掘到的网页转化成xml文件,直接存入xml数据库中,可以供用户使用xquery进行网页信息查询。

技术领域

本发明提出了一种新的基于xml数据库的定点暗网网络情报挖掘分析方法,本设计方法主要包含网络爬虫,暗网网络爬虫,xml数据库,xquery查询语言,html解析器等领域的技术。主要内容是从暗网和网络中挖掘出相关网页,然后将他们转化成xml文件,存入xml数据库。

背景技术

本系统的设计方法的背景技术包含网络爬虫,暗网网络爬虫,xml数据库,xquery查询,html解析器等背景技术。

发明内容

本系统主要包含5个阶段,暗网爬虫启动阶段,定点深度挖掘阶段,关键词匹配阶段,数据清洗阶段和数据存储阶段。系统包含软件代码部分和配置文件部分,代码是运行的主体,配置文件则是包含参数,用于系统运行时候所需要的运行参数。配置文件主要包含3个,config_validate.xml,config_main.xml和config_auto_digger.xml这3个配置文件。

暗网爬虫启动阶段主要是启动暗网爬虫,首先读取配置文件中的配置参数,将3个配置文件使用beautifulsoup实例化,即config_validate.xml,config_main.xml和config_auto_digger.xml三个文件,分别得到config_soup_check, config_soup_vertical, 和config_main_soup_vertical。 从config_soup_vertical中读取挖掘的层次digger_level,将xvfb_display设置为none。从config_main_soup_vertical中读取webdriver_node,其中读取webdriver_name,如果webdriver_name是onion_headless的话,通过start_xvfb来启动xvfb_display。然后就是暗网爬虫启动阶段了,从webdriver_node中读取关键信息,比如,读取webdriver_name,如果webdriver_name是chrome,则从webdriver_node中读取webdriver_path的信息,即path_to_chrome_driver,然后,通过os.environ[‘webdriver.chrome.driver’]的方式设置读取到的webdriver_path的信息,然后使用driver_local = webdriver.Chrome(path_to_chrome_driver)。如果webdriver_type是firefox_binary,则从webdriver_node中读取binary_path的内容,然后赋值给binary_path变量,然后使用firefoxbinary(binary_path)的方法来赋值binary变量,并且使用webdriver.Firefox(binary)的方法来启动爬虫。如果webdriver_type是ie,则从webdriver_node中读取webdriver_path的内容,然后赋值给webdriver_path,通过webdriver.Ie(webdriver_path)的方式来启动爬虫,如果webdriver_type是chrome_binary,则先启动options,将options.binary设置成webdriver_node中找到的binary_path内容,然后从webdriver_node中读取webdriver_path,赋值给path_to_chrom_driver,然后通过webdriver.chrome(chrome_options=options, execute_path=path_to_chrom_driver)的方法启动爬虫。如果webdriver_type是phantomjs,则从webdriver_node中读取binary_path的内容,然后使用webdriver.PhantomJS(executable_path=binary_location)的方法启动爬虫。如果webdriver_type是onion,则从webdriver_node中读取binary_path,赋值给tbb_dir,然后使用TorBrowserDriver(tbb_dir)启动爬虫。如果webdriver_type的内容是onion_headless,则从webdriver_node中读取binary_path的内容,赋值给tbb_dir,然后使用TorBrowserDriver(tbb_dir)的方法启动爬虫。将启动的爬虫设置为driver_local。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津挺哥网络科技有限公司,未经天津挺哥网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010178386.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top