[发明专利]一种暗网数据搜索方法及搜索引擎无效

专利信息
申请号: 201210049279.3 申请日: 2012-02-29
公开(公告)号: CN103294715A 公开(公告)日: 2013-09-11
发明(设计)人: 王卫波;潘树燊;黄同同;郝志新 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京派特恩知识产权代理事务所(普通合伙) 11270 代理人: 蒋雅洁;张颖玲
地址: 518044 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 搜索 方法 搜索引擎
【说明书】:

技术领域

发明涉及网络搜索技术,尤其涉及一种暗网数据搜索方法及搜索引擎。

背景技术

暗网(Hidden Web)是指网络上不能通过静态链接获取其内容的web页面,如各网站通过用输入关键词才能获得表单内容的页面,需要登录才能获取的页面等,这些页面是目前搜索引擎所无法抓取的网页、不能直接进行检索的网页,即“看不见”的网站。

2000年由Bright Planet公司发布的一个名为《The Deep Web-Surfacing TheHidden Value》白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。而此比率随着时间推移正在越来越大。发掘、索引和丰富展示更多的暗网数据,对各搜索引擎来说已经势在必行或者正在实施。

对于暗网数据的检索,目前搜索业界通行的策略是:由搜索引擎侧开放统一的API接口,各大暗网网站提交已经结构化的暗网数据,并设定好关键词和展示方式、位置。搜索引擎后台通过Key-Value的索引方式,对这些结构化的暗网数据进行索引,当用户输入的关键词(key)与暗网网站设定的索引相匹配时,展示既定的静态结果(value)给用户。这样的检索方法,只能按照暗网网站提供的检索词进行死板的检索、排序和展示,仅能够展示暗网提供的结构化暗网数据。

发明内容

有鉴于此,本发明的主要目的在于提供一种暗网数据搜索方法及搜索引擎,以解决暗网数据搜索不灵活的问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明提供了一种暗网数据搜索方法,所述方法包括:

从暗网上获取暗网数据;

根据预配置搜索使用的数据结构转换规则,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;

基于所述暗网数据检索库进行暗网数据的搜索处理。

在上述方案中,所述方法还包括:配置搜索使用的数据结构转换规则。

在上述方案中,所述配置搜索使用的数据结构转换规则,包括:基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。

在上述方案中,所述配置搜索使用的数据结构转换规则包括:配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。

在上述方案中,所述基于所述暗网数据检索库进行暗网数据的搜索处理,包括:

获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述暗网数据检索库中检索相匹配的暗网数据。

本发明还提供了一种暗网数据搜索引擎,所述搜索引擎包括:获取单元、转换单元和搜索处理单元;其中,

获取单元,用于从暗网上获取暗网数据;

转换单元,用于根据预配置搜索使用的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;

搜索处理单元,用于基于所述转换单元生成的暗网数据检索库进行暗网数据的搜索处理。

在上述方案中,所述搜索引擎还包括:配置单元,用于配置搜索使用的数据结构转换规则;

所述转换单元,具体用于根据所述配置单元预配置的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库。

在上述方案中,所述配置单元,还用于基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。

在上述方案中,所述配置单元,具体用于配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。。

在上述方案中,所述搜索处理单元,具体用于获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述转换单元生成的暗网数据检索库中检索相匹配的暗网数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210049279.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top