[发明专利]一种基于xml数据库的定点暗网情报挖掘分析系统的设计方法在审

申请号：	202010178386.0	申请日：	2020-03-14
公开（公告）号：	CN113392298A	公开（公告）日：	2021-09-14
发明（设计）人：	不公告发明人	申请（专利权）人：	天津挺哥网络科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/2458
代理公司：	暂无信息	代理人：	暂无信息
地址：	300000 天津市滨海新区自贸试验区（中心商务区）***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 xml 数据库定点情报挖掘分析系统设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种新的基于xml数据库的定点暗网情报挖掘分析系统。该系统先启动暗网爬虫系统，该系统能够从暗网定点网站或者明网上挖掘采集网页数据，然后将挖掘到的网页转化成xml文件，直接存入xml数据库中，可以供用户使用xquery进行网页信息查询。

技术领域

本发明提出了一种新的基于xml数据库的定点暗网网络情报挖掘分析方法，本设计方法主要包含网络爬虫，暗网网络爬虫，xml数据库，xquery查询语言，html解析器等领域的技术。主要内容是从暗网和网络中挖掘出相关网页，然后将他们转化成xml文件，存入xml数据库。

背景技术

本系统的设计方法的背景技术包含网络爬虫，暗网网络爬虫，xml数据库，xquery查询，html解析器等背景技术。

发明内容

本系统主要包含5个阶段，暗网爬虫启动阶段，定点深度挖掘阶段，关键词匹配阶段，数据清洗阶段和数据存储阶段。系统包含软件代码部分和配置文件部分，代码是运行的主体，配置文件则是包含参数，用于系统运行时候所需要的运行参数。配置文件主要包含3个，config_validate.xml，config_main.xml和config_auto_digger.xml这3个配置文件。

暗网爬虫启动阶段主要是启动暗网爬虫，首先读取配置文件中的配置参数，将3个配置文件使用beautifulsoup实例化，即config_validate.xml，config_main.xml和config_auto_digger.xml三个文件，分别得到config_soup_check, config_soup_vertical, 和config_main_soup_vertical。从config_soup_vertical中读取挖掘的层次digger_level，将xvfb_display设置为none。从config_main_soup_vertical中读取webdriver_node，其中读取webdriver_name，如果webdriver_name是onion_headless的话，通过start_xvfb来启动xvfb_display。然后就是暗网爬虫启动阶段了，从webdriver_node中读取关键信息，比如，读取webdriver_name，如果webdriver_name是chrome，则从webdriver_node中读取webdriver_path的信息，即path_to_chrome_driver，然后，通过os.environ[‘webdriver.chrome.driver’]的方式设置读取到的webdriver_path的信息，然后使用driver_local = webdriver.Chrome(path_to_chrome_driver)。如果webdriver_type是firefox_binary，则从webdriver_node中读取binary_path的内容，然后赋值给binary_path变量，然后使用firefoxbinary(binary_path)的方法来赋值binary变量，并且使用webdriver.Firefox(binary)的方法来启动爬虫。如果webdriver_type是ie，则从webdriver_node中读取webdriver_path的内容，然后赋值给webdriver_path，通过webdriver.Ie(webdriver_path)的方式来启动爬虫，如果webdriver_type是chrome_binary，则先启动options，将options.binary设置成webdriver_node中找到的binary_path内容，然后从webdriver_node中读取webdriver_path，赋值给path_to_chrom_driver，然后通过webdriver.chrome(chrome_options=options, execute_path=path_to_chrom_driver)的方法启动爬虫。如果webdriver_type是phantomjs，则从webdriver_node中读取binary_path的内容，然后使用webdriver.PhantomJS(executable_path=binary_location)的方法启动爬虫。如果webdriver_type是onion,则从webdriver_node中读取binary_path，赋值给tbb_dir，然后使用TorBrowserDriver(tbb_dir)启动爬虫。如果webdriver_type的内容是onion_headless，则从webdriver_node中读取binary_path的内容，赋值给tbb_dir，然后使用TorBrowserDriver(tbb_dir)的方法启动爬虫。将启动的爬虫设置为driver_local。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津挺哥网络科技有限公司，未经天津挺哥网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010178386.0/2.html，转载请声明来源钻瓜专利网。

上一篇：显示方法、查询方法、导航方法、辅助乘车方法及装置
下一篇：一种CYP17抑制剂固体分散体及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于xml数据库的定点暗网情报挖掘分析系统的设计方法在审

专利文献下载