[发明专利]私有云搜索系统及其实现方法无效
申请号: | 201110275528.6 | 申请日: | 2011-09-16 |
公开(公告)号: | CN102323955A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 邹春城 | 申请(专利权)人: | 邹春城 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 436032 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 私有 搜索 系统 及其 实现 方法 | ||
技术领域
本发明涉及互联网搜索引擎技术,尤其涉及一种私有云搜索系统及其实现方法。
背景技术
当前互联网搜索服务基本以网站的方式来提供,且提供搜索服务的网站有两类:
一类是专业的搜索引擎网站,这类网站为用户准备了所有网站的所有内容,然后只需要用户键入关键字后,即可得到搜索的结果。这种大海捞针式的搜索首先是利用网络蜘蛛爬虫技术,抓取大量网页为浏览者准备海量的资料,然后对资料进行内容或行业分类,利用分词技术,按内容新颖程度、点击量分级,将网页保存在数据库中供用户搜索。这种搜索的特点是:范围广泛、内容庞杂,对技术的要求和硬件设备的要求较高,且资金投入大,虽能满足所有人的基本需要,但搜索结果往往并不能令人满意。由于其信息更新不够及时,搜索引擎对各个网站的搜索只能用统一的一个或多个关键字过滤,无法实现对不同网站个性化定制搜索。
另一类是各种行业的专用网站,如商务网站、新闻网站等。这类专用网站大多都提供搜索入口,并提供多种不同的搜索过滤条件,其针对本网站的站内搜索数据是准确的,但是存在数据量有限、可比较选择的范围有限等不足,同样难以令人满意。
所有搜索实质上都是字符匹配,前者是在一个庞杂无序的缓存空间数据库内进行检索,而后者是在专业有序的数据库内进行。
发明内容
有鉴于此,本发明的主要目的在于提供一种私有云搜索系统及其实现方法,能够根据用户的需要,由用户自己定制各网站的不同搜索条件或代为定制搜索条件然后再进行搜索,以实现个性化的针对性搜索,提高搜索精准度和提高搜索效率。
为达到上述目的,本发明的技术方案是这样实现的:
一种私有云搜索系统,包括浏览器,该私有云搜索系统还包括网页结构分析记忆模块和数据过滤筛选模块;所述浏览器中,进一步包括人工浏览网页模块和机器浏览网页模块,或者仅包括机器浏览网页模块;其中:
机器浏览网页模块,用于根据搜索的广度在选择的网址范围内抓取网页,或根据有无搜索关键字,选取不同的搜索链接,根据查询模板生成搜索请求和抓取网页,并根据搜索结果设定搜索深度;
网页结构分析记忆模块,根据需要提取网页上的本站链接、站外链接、本站图片链接并分类保存到数据库中;用于判断网页上的是否有填充表单、表单如何设计组织,并根据用户需要输出能反映表单设计内容的字串记录,并根据需要保存到数据库中;提供人工辅助提取当前网页上的网址并分类筛选网址功能,保存到数据库中;自动提取鼠标点击位置处的网址链接,以及在提交网页请求时,记录提交请求的数据格式;
数据过滤筛选模块,根据行业信息的特点,设定数据筛选条件和关键字集;分析网页代码特征分割代码,提取文字段落;根据文字段落和多关键字查询,实现语义块有效性判断;以及根据有效性大小,筛选保存数据。
其中,所述网页结构分析记忆模块作为所述浏览器的插件进行使用,以实现对网页结构进行分析和记忆功能;或与本系统自带的专用浏览器作为一个整体安装在各种不同的操作系统环境中使用。
所述浏览器为通用浏览器,即为具有网页下载,网页渲染,网页显示等功能的网络工具,可以是现有的任何一种网络浏览器,如:IE、Netscape、GoogleChrome、Mac、Firefox、Maxthon、Opera、TheWorld、Sogou、 TT、 baidu、360、IQ浏览器中的任一种或为在所述浏览器的基础上开发的其他浏览器。
一种私有云搜索系统的实现方法,该方法包括如下步骤:
A、用户自选网站参与搜索,按行业和内容选择网站,并进行分类,建立私有云信息源数据库;
B、利用网页结构分析记忆模块,抓取信息源上的网页,并分析过滤网页链接,通过链接文字找到搜索入口,进一步通过模块分析入口表单结构,然后根据上述的表单结构的记录生成查询模板,在具体搜索查询时,依次替换关键字或搜索条件生成搜索请求,将此表单结构或查询模板保存到信息源查询接口模板数据库中,即建立私有云信息源搜索查询接口模板数据库;
C、在准备好上述私有云信息源数据库和信息源查询接口模板数据库后,设置搜索参数开始进行搜索,并在用户通过某个界面提交搜索请求后,系统直接根据用户自己定制的搜索条件和用户提供的关键字生成针对不同网站的搜索请求,按网站排序将此搜索请求提交给不同的网站,这些网站通过他们各自开放的数据库查询功能进行筛选搜索。
较佳地,所述步骤C之后进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邹春城,未经邹春城许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110275528.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:牛仔服装面料
- 下一篇:磺酸盐滤渣回收处理系统