[发明专利]一种基于xml数据库的定点暗网情报挖掘分析系统的设计方法在审
申请号: | 202010178386.0 | 申请日: | 2020-03-14 |
公开(公告)号: | CN113392298A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 天津挺哥网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300000 天津市滨海新区自贸试验区(中心商务区)*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xml 数据库 定点 情报 挖掘 分析 系统 设计 方法 | ||
本发明提出一种新的基于xml数据库的定点暗网情报挖掘分析系统。该系统先启动暗网爬虫系统,该系统能够从暗网定点网站或者明网上挖掘采集网页数据,然后将挖掘到的网页转化成xml文件,直接存入xml数据库中,可以供用户使用xquery进行网页信息查询。
技术领域
本发明提出了一种新的基于xml数据库的定点暗网网络情报挖掘分析方法,本设计方法主要包含网络爬虫,暗网网络爬虫,xml数据库,xquery查询语言,html解析器等领域的技术。主要内容是从暗网和网络中挖掘出相关网页,然后将他们转化成xml文件,存入xml数据库。
背景技术
本系统的设计方法的背景技术包含网络爬虫,暗网网络爬虫,xml数据库,xquery查询,html解析器等背景技术。
发明内容
本系统主要包含5个阶段,暗网爬虫启动阶段,定点深度挖掘阶段,关键词匹配阶段,数据清洗阶段和数据存储阶段。系统包含软件代码部分和配置文件部分,代码是运行的主体,配置文件则是包含参数,用于系统运行时候所需要的运行参数。配置文件主要包含3个,config_validate.xml,config_main.xml和config_auto_digger.xml这3个配置文件。
暗网爬虫启动阶段主要是启动暗网爬虫,首先读取配置文件中的配置参数,将3个配置文件使用beautifulsoup实例化,即config_validate.xml,config_main.xml和config_auto_digger.xml三个文件,分别得到config_soup_check, config_soup_vertical, 和config_main_soup_vertical。 从config_soup_vertical中读取挖掘的层次digger_level,将xvfb_display设置为none。从config_main_soup_vertical中读取webdriver_node,其中读取webdriver_name,如果webdriver_name是onion_headless的话,通过start_xvfb来启动xvfb_display。然后就是暗网爬虫启动阶段了,从webdriver_node中读取关键信息,比如,读取webdriver_name,如果webdriver_name是chrome,则从webdriver_node中读取webdriver_path的信息,即path_to_chrome_driver,然后,通过os.environ[‘webdriver.chrome.driver’]的方式设置读取到的webdriver_path的信息,然后使用driver_local = webdriver.Chrome(path_to_chrome_driver)。如果webdriver_type是firefox_binary,则从webdriver_node中读取binary_path的内容,然后赋值给binary_path变量,然后使用firefoxbinary(binary_path)的方法来赋值binary变量,并且使用webdriver.Firefox(binary)的方法来启动爬虫。如果webdriver_type是ie,则从webdriver_node中读取webdriver_path的内容,然后赋值给webdriver_path,通过webdriver.Ie(webdriver_path)的方式来启动爬虫,如果webdriver_type是chrome_binary,则先启动options,将options.binary设置成webdriver_node中找到的binary_path内容,然后从webdriver_node中读取webdriver_path,赋值给path_to_chrom_driver,然后通过webdriver.chrome(chrome_options=options, execute_path=path_to_chrom_driver)的方法启动爬虫。如果webdriver_type是phantomjs,则从webdriver_node中读取binary_path的内容,然后使用webdriver.PhantomJS(executable_path=binary_location)的方法启动爬虫。如果webdriver_type是onion,则从webdriver_node中读取binary_path,赋值给tbb_dir,然后使用TorBrowserDriver(tbb_dir)启动爬虫。如果webdriver_type的内容是onion_headless,则从webdriver_node中读取binary_path的内容,赋值给tbb_dir,然后使用TorBrowserDriver(tbb_dir)的方法启动爬虫。将启动的爬虫设置为driver_local。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津挺哥网络科技有限公司,未经天津挺哥网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010178386.0/2.html,转载请声明来源钻瓜专利网。