[发明专利]一种自定义动态扩展的暗网爬虫系统在审

申请号：	201910071997.2	申请日：	2019-01-25
公开（公告）号：	CN109902212A	公开（公告）日：	2019-06-18
发明（设计）人：	徐进;孙恩博;刘义铭;郭宇斌;吕泉池;陈周国	申请（专利权）人：	中国电子科技集团公司第三十研究所
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/953;G06F16/958
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	刘世权
地址：	610000 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自定义动态扩展的暗网爬虫系统，包括：网页解析插件模块，对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器；爬虫线程模块,负责执行各类网页爬虫过程；爬虫调度器模块，负责网页解析插件模块与爬虫线程之间的交互；并发模块，并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程；负载均衡代理池管理模块：动态代理服务加载与管理，提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载，提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块，对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配，实现了各tor代理的最大化使用。
搜索关键词：	爬虫爬虫系统代理线程插件模块动态扩展负载均衡网页解析网页页面池管理自定义暗网下载并发负载均衡功能网页页面数据调度器模块并行下载动态代理动态加载服务加载均衡分配可维护性时间效率实时监控网页爬虫站点链接站点页面调度器最大化可用解析站点网页保证管理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自定义动态扩展的暗网爬虫系统，其特征在于，包括：网页解析插件模块，对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器；爬虫线程模块,负责执行各类网页爬虫过程；爬虫调度器模块，负责网页解析插件模块与爬虫线程之间的交互；并发模块，并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程；负载均衡代理池管理模块：动态代理服务加载与管理，提供负载均衡功能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所，未经中国电子科技集团公司第三十研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910071997.2/，转载请声明来源钻瓜专利网。

上一篇：一种用于会计电子档案管理的系统及方法
下一篇：实时公交服务线路推荐方法、装置与电子设备

同类专利

网页数据采集方法、装置、设备及存储介质-201910627107.1
发明人：董晨辉;任延辉;谷广鹏 -专利权人：新华三大数据技术有限公司
申请日： 2019-07-11 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本公开提供一种网页数据采集方法、装置、设备及存储介质，涉及数据处理技术领域。该方法根据数据采集需求的信息以及预设的脚本模板，创建数据采集需求对应的任务，使得对于不同的数据采集需求以及对应的预设的脚本模板，可以创建相应的任务；进而通过获取任务所需的运行资源和多个采集节点的运行资源状态，从多个采集节点中确定与任务相匹配的采集节点作为目标节点，并将任务下发给目标节点，以使得目标节点根据任务进行数据采集，从而将任务所需的运行资源与采集节点的运行资源状态关联起来，可以为任务选择精确的采集节点，提高了采集节点执行任务的运行效率，即数据采集效率。

一种智能的政策信息采集和查询方法及其系统-201910708022.6
发明人：费红琳;肖巧巧;丁杰;倪向东 -专利权人：广州高企云信息科技有限公司
申请日： 2019-08-01 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明涉及计算机人工智能数据处理技术领域，公开了一种智能的政策信息采集和查询方法，包括了S1：网络爬虫工具抓取全国各地政府网站上与科技政策有关的网页内容和附件，并将抓取到的网页内容和附件存储到Elasticsearch服务器中；S2：政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库；S3：文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取，并整合到Solr服务器中；S4：用户使用高企云搜索从Solr服务器中获取政策内容，本发明还公开了一种智能的政策信息采集和查询系统，本发明通过设置内容提取模块使得系统可以对政策信息附件的内容进行提取，便于用户对科技政策的快速查询。

分布式数据爬取系统、方法、装置、设备和存储介质-201910717429.5
发明人：肖淋峰;吴志坚 -专利权人：深圳乐信软件技术有限公司
申请日： 2019-08-05 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明实施例公开了一种分布式数据爬取系统、方法、装置、设备和存储介质。本发明实施例提供的系统包括任务队列集群和数据爬取集群，其中，任务队列集群包括至少一台终端，所述任务队列集群中设置有起始任务队列和中间任务队列，所述起始任务队列和中间任务队列分布用于保存起始爬取地址和中间爬取地址，数据爬取集群包括至少一台终端，用于访问所述任务队列集群以获取起始爬取地址和中间爬取地址，并根据所述起始爬取地址和所述中间爬取地址爬取目标网页。本发明实施例提供的系统，通过在任务队列集群中分别设置起始任务队列和中间任务队列，便于数据爬取过程中任务量的更改，降低了资源调度困难程度，提高了数据爬取效率。

一种智能研报生成方法及终端-201910743420.1
发明人：李伟;万超 -专利权人：深圳司南数据服务有限公司
申请日： 2019-08-13 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明公开了一种智能研报生成方法及终端，通过多线程分布式处理模式的爬虫程序对数据源进行实时爬取，以获得初始金融数据；通过解析器对初始金融数据进行处理，以抽取有效金融数据；组织与展示有效金融数据。本发明使用了多线程分布式处理模式，从而实时返回最新更新数据，以适应复杂变化的金融数据采集与更新，解决了研究员从各个站点搜集数据、信息的痛点，并且提高了数据准确性与时效性；通过将研究员从繁琐的数据和信息整理中解放出来，能够有更多的时间进行分析和思考，同时自动提取也比人工处理来说，提高了数据和信息处理的准确率和效率，即本申请能够提高研报撰写的效率与质量。

网络爬虫集群信息的更新方法和装置-201510579940.5
发明人：崔志伸 -专利权人：北京国双科技有限公司
申请日： 2015-09-11 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本申请公开了一种网络爬虫集群信息的更新方法和装置。其中，网络爬虫集群中每个网络爬虫配备一个本地检查器，该方法包括：目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接，其中，消息中携带有目标爬取链接；在查询出不存在目标爬取链接时，目标本地检查器保存目标爬取链接，并向其他本地检查器发送携带有目标爬取链接的广播，以使其他本地检查器依据广播更新爬取链接。本申请解决了相关技术中网络爬虫的爬取效率比较低的技术问题。

数据的导入方法及装置-201510613528.0
发明人：张运 -专利权人：北京国双科技有限公司
申请日： 2015-09-23 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明公开了一种数据的导入方法及装置。其中，该方法包括：获取目标URL上添加的目标关键词的编码参数；确定与编码参数对应的用户操作行为数据，其中，用户操作行为数据包括以下至少之一：目标URL的访问次数，访问目标URL所带来的用户注册次数，访问目标URL所带来的用户下单次数；获取预先设定的编码参数与目标关键词的对应关系；按照对应关系导入用户操作行为数据。本发明解决了由于客户的关键词数量大、种类繁琐而造成的按照字面意思匹配原则导入数据时导入效率低的技术问题。

一种基于复杂网络结点相似性的计算事件相似性的方法和系统-201610621943.5
发明人：李平;彭欣宇;陈雁;胡栋;孙先;陈凯琪;朱鹏军;韩修龙;郭培伦;许斌;刘婷;朱婷婷;李永乐;林辉;黄飞 -专利权人：西南石油大学
申请日： 2016-08-02 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明公开了一种基于复杂网络结点相似性的计算事件相似性的方法和系统，其方法包括：获取事件信息，并提取所述事件信息的关键词；计算任意两个事件信息中相同关键词的比例；根据所述任意两个事件信息中相同关键词的比例构建事件网络；计算事件网络中任意两个节点的相似性；将相似性大于合并阈值的两个节点对应的事件信息进行合并。本发明能够有效地计算事件信息的相似度，并将相似性大于合并阈值的两个事件信息进行合并，此外，本发明降低了事件相似性计算过程中的计算量，提高事件相似性计算的准确率。

一种大数据网络爬虫分页选择方法和系统-201710236260.2
发明人：张志成;王纯斌;覃进学;刘佳 -专利权人：成都四方伟业软件股份有限公司
申请日： 2017-04-12 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：本发明公开了一种大数据网络爬虫分页选择方法和系统。方法包括以下步骤：解析爬虫脚本；获取匹配符，对爬虫脚本内容中的标签信息进行匹配；将匹配成功的标签的特征值存入URL队列中；获取URL队列中的URL连接地址，校验URL连接地址；获取校验后的URL连接地址，进行地址匹配；解析地址匹配成功的URL地址的网页，获取分页信息；系统包括第一解析模块，第一匹配模块，存储模块，获取模块，第二匹配模块，第二解析模块和配置模块。本发明解决了当网页中的页面按钮HTML结构发生改变时，不能循环爬取网页数据的问题，能够精准识别数据的分页标签，有效防止循环爬取数据过程中断，提升了网页数据的爬取效率。

在物联网中启用语义混搭-201780065993.2
发明人：孙翔;王重钢;李旭;李庆光;D·N·希德;李鸿堃 -专利权人：康维达无线有限责任公司
申请日： 2017-09-29 - 公布日： 2019-11-12 - 主分类号： G06F16/951
摘要：一种新的具有模块化设计的语义混搭架构可以包括单独的语义混搭配置文件(SMP)、虚拟语义混搭资源(VSMR)和语义混搭结果(SMRS)。这种模块化设计大大地改进了SMP、VSMR和SMRS的可重用性。另外，该新的混搭架构在每个混搭过程期间利用语义，这提高了互操作性。而且，该新的架构在服务层处基本上实现了新的语义混搭服务(SMS)，因此改进了系统效率。

企业舆情信息查询方法、装置、计算机设备及存储介质-201910532451.2
发明人：林国胜 -专利权人：深圳壹账通智能科技有限公司
申请日： 2019-06-19 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本发明实施例公开了一种企业舆情信息查询方法、装置、计算机设备及存储介质。本发明应用于数据分析中的知识图谱领域。所述方法包括：通过网络爬虫的方式从第一预设网页中根据预设规则获取企业的关联信息，并通过知识图谱的方式将所述关联信息与所述企业进行关联；通过网络爬虫的方式从第二预设网页中根据所述关联信息获取所述企业的舆情信息，并将所述舆情信息与企业进行关联；若接收到用户输入的查询信息，判断所述查询信息是否与所述关联信息相匹配；若所述查询信息与所述关联信息相匹配，返回所述关联信息对应的所述企业的所述舆情信息。通过实施本发明实施例的方法可实现通过关联信息快速查询P2P平台，提高查询效率的效果。

网页信息搜索方法、装置、计算机设备及存储介质-201910568616.1
发明人：王涛;朱葛 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-27 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本申请涉及数据采集领域，具体使用了数据爬取技术，采用网络爬虫的方式进行爬取，并公开了一种基于爬虫的网页信息搜索方法、装置、计算机设备及存储介质，启动具备爬虫功能的搜索容器，通过所述搜索容器调取预定义的目标API，根据所述目标API加载对应的目标浏览器驱动，获取用户的输入信息，并根据所述目标浏览器驱动模拟运行所述目标浏览器以对所述输入信息进行网页信息搜索。通过上述方式，本申请能够通过用户的输入信息加载虚拟的目标浏览器驱动，从而运行目标浏览器进行专业的信息搜索，确保搜索结果的准确性，保证信息质量满足用户的需求，提高工作效率，促进大数据采集技术的发展，符合和满足技术智能化发展的趋势。

一种基于人工智能的信息监测方法及系统-201910678707.0
发明人：文珠穆;杨微;张应武 -专利权人：磐基（湖北）网络安全技术有限公司
申请日： 2019-07-25 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本发明公开了一种基于人工智能的信息监测方法及系统。本发明通过在网络内容信息发布前，通过建立的人工智能信息分析模型对海量互联网信息进行人工智能识别和检测结果认定，针对可能在短期形成大规模传播的“爆发词”，进行提前预判，同时能够在海量特征库的支持下持续进行语义自主学习，对不合规内容提高辨识准确率达到85％，提高了用户在网络内容信息发布管理领域的安全防护能力。

一种基于深度学习的舆情新闻去重与推送方法-201910707729.5
发明人：王慜骊;林路;陈芃;郏维强 -专利权人：信雅达系统工程股份有限公司
申请日： 2019-08-01 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本发明公开了一种基于深度学习的舆情新闻去重与推送方法，包括以下步骤，网络数据爬取，利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章，将爬取的新闻文本化，设一段时间内爬取的金融相关新闻信息为Fz，其中z代表周期，生成主题关键词，通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据，生成每篇新闻的主题关键词。本发明中，对公告、新闻等舆情数据，设计并实现文本去重算法方案，筛选描述同一事件的相似文本，避免信息损失重复资讯识别，算法简明，效果显著，可以大大提高业务人员的风险预警新闻阅读量。

一种网络安全情报采集方法、装置、设备及存储介质-201910721647.6
发明人：张光益;许爱东;明哲;杨航;陈霖 -专利权人：南方电网科学研究院有限责任公司;中国南方电网有限责任公司
申请日： 2019-08-06 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本申请公开了一种网络安全情报采集方法，包括根据接收到的采集指令启动网络爬虫，并利用网络爬虫进行信息爬取，获得网络安全情报资源；对网络安全情报资源进行分类，获得文本类文件和非文本类文件；根据非文本类文件的文件类型调用文件转换工具，并利用文件转换工具将非文本类文件转换为文本类文件；根据预设情报标准格式规范对文本类文件进行信息提取，获得目标内容；通过预设标准化数据生成模型对目标内容进行标准化处理，获得标准化网络安全情报；该方法可以持续性、大规模地对互联网上的网络安全情报进行采集，有效的提高了信息采集效率。本申请还公开了一种网络安全情报采集装置、设备及计算机可读存储介质，均具有上述有益效果。

基于SPO数据的搜索方法、装置、设备和存储介质-201810697294.6
发明人：许超;陆超 -专利权人：北京百度网讯科技有限公司
申请日： 2018-06-29 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本发明提供一种基于SPO数据的搜索方法、装置、设备和存储介质。该方法包括：接收用户的搜索请求；所述搜索请求包括实体名称；根据预先存储的知识图谱的SPO数据，获取所述实体名称对应的属性名和属性值；所述SPO数据包括主语S、谓语P、宾语O三元组信息；所述S元组用于存储实体名称；所述P元组用于存储与所述实体名称对应的属性名；所述O元组用于存储与所述实体名称对应的属性值；向所述用户显示所述实体名称对应的属性名和属性值。本发明实施例能够直观、精准地将属性名和属性值作为搜索结果提供给用户，从而提高搜索效率，提升用户搜索体验。

网络爬虫识别方法和装置-201510250481.6
发明人：周高明 -专利权人：阿里巴巴集团控股有限公司
申请日： 2015-05-15 - 公布日： 2019-11-05 - 主分类号： G06F16/951
摘要：本申请提出一种网络爬虫识别方法和装置，该网络爬虫识别方法包括：接收客户端在网页渲染完毕后发送的所述网页的图片和所述网页的URL；根据所述URL获取样本图片；根据相似度与预设阈值的比较，识别所述客户端是否为网络爬虫，所述相似度为所述网页的图片与所述样本图片的相似度。本申请对网络爬虫识别的可靠性较高，不影响正常用户浏览网页的流畅性，并且即便网络爬虫破解了上述识别方法，也会极大的消耗网络爬虫自身的资源，降低网络爬虫访问网页的频率。

一种商铺信息推送方法与系统、通信装置及移动终端-201511020462.0
发明人：唐健;陈毅林;杨拓 -专利权人：深圳市科漫达智能管理科技有限公司
申请日： 2015-12-29 - 公布日： 2019-11-01 - 主分类号： G06F16/951
摘要：本发明属于信息推送技术领域，公开了一种商铺信息推送方法与系统、通信装置与移动终端。在本发明中，通信装置发送携带有通信协议特征值的通信端身份标识信息，移动终端接收包含该通信端身份标识信息的所有身份标识信息，并对所有身份标识信息进行识别，且生成与通信端身份标识信息对应的识别结果反馈信息，通信装置接收该识别结果反馈信息，并根据该识别结果反馈信息推送商铺信息至移动终端，进而使得持有移动终端的顾客可以获取到商铺信息，解决了现有的商铺信息宣传方式存在成本高、受众精度低且效率低的问题。

一种信息搜索方法及装置-201580000434.4
发明人：许哲;吴黄伟 -专利权人：华为技术有限公司
申请日： 2015-01-04 - 公布日： 2019-11-01 - 主分类号： G06F16/951
摘要：本发明实施例公开一种信息搜索方法及装置，该信息搜索方法包括：接收用户输入的搜索信息；根据搜索信息获取至少一个搜索元素和每个搜索元素关联的至少一个关键信息；将每个搜索元素关联的至少一个关键信息发送给该搜索元素对应的至少一个搜索应用，以便于至少一个搜索应用根据该搜索元素关联的至少一个关键信息进行搜索；接收至少一个搜索应用返回的搜索结果并输出。实施本发明实施例，可以提高信息搜索效率。

网页邮箱数据的爬取方法、装置、终端和存储介质-201910522340.3
发明人：卢俊 -专利权人：深圳壹账通智能科技有限公司
申请日： 2019-06-17 - 公布日： 2019-10-29 - 主分类号： G06F16/951
摘要：本发明涉及深层网页爬虫技术领域，尤其涉及一种网页邮箱数据的爬取方法、装置、终端和存储介质，包括：当邮箱主页面加载成功后，调用浏览器的回调函数，其中，所述回调函数包括注入的脚本文件；获取指定的搜索信息，并通过所述脚本文件的爬取脚本对所述邮箱主页面的邮件数据进行爬取，得到与所述搜索信息对应的爬取数据；当爬取操作完成后，将所述爬取数据上传至服务器进行解析；接收所述服务器返回的解析结果，并将所述解析结果进行展示，其中，所述解析结果包括与所述搜索信息相匹配的目标数据；该方案避免了服务端因多次爬取数据而被屏蔽的现象发生，同时节省了服务端爬取数据过程中消耗的资源。

一种展示增值业务信息的方法、装置及电子设备-201610346424.2
发明人：徐琪 -专利权人：北京金山安全软件有限公司
申请日： 2016-05-23 - 公布日： 2019-10-29 - 主分类号： G06F16/951
摘要：本发明的实施例公开一种展示增值业务信息的方法、装置及电子设备，涉及增值业务，能够提升推送效率。所述方法包括：接收推送的增值业务信息；按照预先设置的缩略图生成策略，生成所述增值业务信息的缩略图；提取所述增值业务信息的关键词，将提取的关键词与生成的缩略图进行合并，得到图文信息；按照当前搜索框尺寸以及基准搜索框尺寸对应的图文信息基准尺寸，对所述图文信息进行调整；将调整的图文信息展示在所述当前搜索框中。本发明适用于推送增值业务。

方法、计算机可读非临时性存储介质和系统-201710476439.5
发明人：拉贾特·拉伊纳;吉赫·洪;斯里拉姆·桑卡尔;吉迪巴·维罗克西里;迈克尔·柯蒂斯;柴塔尼亚·米什拉 -专利权人：脸谱公司
申请日： 2014-04-30 - 公布日： 2019-10-29 - 主分类号： G06F16/951
摘要：本申请涉及方法、计算机可读非临时性存储介质和系统。该方法包括：从在线社交网络的第一用户的客户端设备，接收包括对与在线社交网络相关联的一个或多个选择的对象的引用的结构化查询；解析结构化查询，以识别第一查询约束和一个或多个第二查询约束；识别与第一查询约束相关联的反向约束，其中，第一查询约束已被预先标记为识别大于阈值数量的对象；并且基于结构化查询生成查询命令，其中，查询命令包括反向约束和一个或多个第二查询约束。

文档处理方法、装置、电子设备及存储介质-201910517936.4
发明人：方轲 -专利权人：北京达佳互联信息技术有限公司
申请日： 2019-06-14 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本公开是关于一种文档处理方法、装置、电子设备及存储介质。所述方法包括：获取与事件关键词对应的以预置时长为单位的至少一个新闻文档集合；基于所述事件关键词，和所述至少一个新闻文档集合中的多个新闻文档，确定所述多个新闻文档对应的相关性评分；根据所述相关性评分，从所述多个新闻文档中提取评分分值最高的前N个新闻文档；N为大于等于1的正整数；根据所述前N个新闻文档对应的文档文本，确定所述前N个新闻文档对应的概要文本，并将所述概要文本作为所述前N个新闻文档的摘要文本。本公开可以避免信息冗余，且无需人工参与；并提取相应的摘要文本，可以进行后续的舆情监测或信息整合，无需人工查看逐个新闻，减少了人力成本的投入。

预设用户的资源获取资质生成方法及相关设备-201910540026.8
发明人：李锴 -专利权人：深圳壹账通智能科技有限公司
申请日： 2019-06-19 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本发明公开了一种基于大数据分析的预设用户的资源获取资质生成方法及相关设备，本发明首先对预设用户的官方资源获取资质进行查询；在官方资质为正常状态时，从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本，得到不同类型的参考文本集合；分别对不同类型的参考文本集合进行遍历，对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析，根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数；在对不同类型的参考文本集合遍历完毕之后，根据不同的企业信息类型的舆情指数生成预设用户的当前资质，进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高。

一种设备名称的显示方法、装置、存储介质及电子设备-201910646313.7
发明人：徐玮嘉 -专利权人：江苏满运软件科技有限公司
申请日： 2019-07-17 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本申请实施例公开了一种设备名称的显示方法、装置、存储介质及电子设备。该方法包括：当检测到设备接入时，获取设备的设备型号；判断所述设备型号是否存在于预先存储的映射列表中；若是，则获取设备型号在所述映射列表中对应的目标格式名称，并显示所述目标格式名称。通过运行本申请所提供的技术方案，可以实现通过显示设备的本地化名称的形式，辅助用户快速并准确的确定自己的设备。

一种获取任务的方法及装置-201510261018.1
发明人：龚云波 -专利权人：无锡天脉聚源传媒科技有限公司
申请日： 2015-05-20 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本发明公开了一种获取任务的方法及装置。该方法包括：针对每个发布任务的网站，对所述网站所包含的多个网页内容分别进行解析，确定获取任务的方式；根据确定出的获取任务的方式，确定预先定义的与所述方式对应的应对策略；执行所述应对策略以模拟用户的操作，从所述网站获取任务。本发明通过自动化的方式获取网页内容、模拟用户获取任务的操作，较现有技术中通过用户人为上网搜索并人为获取任务的方式，大大提高了获取任务的效率。

一种基于人工智能的推送信息的方法和装置-201610819912.0
发明人：周波;石磊;何径舟;王凡;黄世维 -专利权人：北京百度网讯科技有限公司
申请日： 2016-09-13 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本申请公开了一种基于人工智能的推送信息的方法和装置。方法的一具体实施方式包括：获取用户的当前查询文本及预定时间内的历史查询文本，得到查询文本组；将查询文本组中的各查询文本分词，得到单词序列组；获取单词序列组中各单词的向量表示，得到单词向量表示序列组；获取单词向量表示序列组的向量表示，得到编码的向量表示；解码编码的向量表示，得到推荐查询文本；基于推荐查询文本，向用户推送信息。该实施方式实现了富于针对性的信息推送，且推送信息的精准度较高。

文章重复度的检测方法、装置及计算设备-201710002050.7
发明人：潘庆翔;黄海澄 -专利权人：广州爱九游信息技术有限公司
申请日： 2017-01-03 - 公布日： 2019-10-25 - 主分类号： G06F16/951
摘要：本发明公开了一种文章重复度的检测方法、装置及计算设备。其中，该方法包括：对待检测文章进行切分，以得到多个切片；对多个切片中至少部分切片执行搜索操作，以得到对应于部分切片中每个切片的搜索结果，其中，搜索结果包括一个或多个结果页面；计算每个切片和与其对应的每个结果页面之间的相似度；根据计算得到的相似度来确定待检测文章的重复度。由此，本发明通过对待检测文章切分，计算多个切片的相似度，根据计算得到的多个切片的相似度来确定待检测文章的重复度。

基于大数据分析的信息推送方法、装置、设备及存储介质-201910539816.4
发明人：甘文俊;钱尼丽 -专利权人：深圳壹账通智能科技有限公司
申请日： 2019-06-19 - 公布日： 2019-10-22 - 主分类号： G06F16/951
摘要：本发明属于大数据分析技术领域，公开了一种基于大数据分析的信息推送方法、装置、设备及存储介质。该方法包括：分时段采集待监控自媒体账号发布的网络数据；利用预先构建的大数据分析模型对各时段的网络数据进行分析，得到网络数据对应的热点的变化率；根据变化率和预设的信息价值判断标准，预测热点是否具备推送价值；若预测热点具备推送价值，则将网络数据推送给用户，以使用户根据网络数据制定贴合热点的业务方案。通过上述方式，解决了现有技术中无法快速、准确的从众多网络数据中识别出有价值的信息，并将有价值的信息推送给用户的技术问题。

基于搜索引擎的未上架风险APP检索方法-201910595002.2
发明人：张月明;范渊 -专利权人：杭州安恒信息技术股份有限公司
申请日： 2019-07-03 - 公布日： 2019-10-22 - 主分类号： G06F16/951
摘要：本发明涉及基于搜索引擎的未上架风险APP检索方法，通过搜索引擎搜索关键字的方式罗列出被搜索引擎爬取过的所有线上软件安装包的下载地址，通过爬虫爬取国内外各大应用商城的所有软件安装包的下载地址，对搜索引擎爬取的软件安装包下载地址和应用商城的软件安装包下载地址进行比对，筛选出未在应用商城上架的软件安装包的下载地址，存储到数据库中供检索。本发明借助搜索引擎强大的爬取功能，同时结合国内外主要应用商城的数据，筛选比对后可以发现大量未上架APP应用，从全局的角度对所有暴露在互联网上的未上架的风险APP进行发现和检索，有助于将暴露在互联网上的未上架风险APP进行收集整理，可以提供风险预警、风险发现和监管。

提升网站搜索排名的方法、装置、计算机设备和存储介质-201910636424.X
发明人：王宽 -专利权人：浙江大搜车软件技术有限公司
申请日： 2019-07-15 - 公布日： 2019-10-22 - 主分类号： G06F16/951
摘要：本申请涉及一种提升网站搜索排名的方法、装置、计算机设备和存储介质。所述方法包括：配置SPA网站的项目中的搜索引擎优化配置文件；根据所述搜索引擎优化配置文件对SPA网站的网页内容进行预渲染，生成渲染文件；在利用搜索引擎进行爬取时，爬取所述渲染文件中的网页内容，并根据爬取的所述网页内容提升SPA网站在搜索引擎中的排名。采用本方法不仅能够减少对服务器负载压力，提升网页内容的爬取速度；而且能够提升SPA网站在搜索引擎中的排名，从而扩大SPA网站在网络上的传播范围。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自定义动态扩展的暗网爬虫系统在审

专利文献下载