[发明专利]一种基于Lucene的农业垂直搜索系统设计在审
申请号: | 201610901204.1 | 申请日: | 2016-10-14 |
公开(公告)号: | CN107958002A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 马廷彦 | 申请(专利权)人: | 哈尔滨派腾农业科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150036 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 农业 垂直 搜索 系统 设计 | ||
技术领域
本发明涉及一种基于Lucene的农业垂直搜索系统设计,属于农业互联网技术领域。
背景技术
互联网正以前所未有的态势改变着整个世界,它现在已经成为人类有史以来资源数量最多,数据种类最全,资源规模最大的一个综合信息库;其信息来源丰富、分布广泛,各种类型信息资源异构地分布于世界各地的网络中;如果不能使庞杂的信息有序化处理,就很难有效地获取;随着计算机技术和互联网技术的飞速发展,网络上的信息量急剧增长,要在浩如烟海的网络世界中寻找需要的信息,作为现代信息获取技术的主要应用,搜索引擎是不可缺少的。国内目前农业信息,特别是农业电子商务信息有了快速发展,各个电子商务网站里拥有大量的有价值的供求信息;应有效地利用目前各个电子商务网站中已有的供求信息,并形成纵向和横向的数据分析和对比,通过数据挖掘技术得出相关的数据供求特征关系,再以文字、表格或者图表等多种形式展现给用户,从而形成一个垂直搜索引擎系统;当前农业信息垂直搜索处于发展阶段,具有很好的发展前景。
发明内容
为解决上述问题,本发明提出了一种基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务。
本发明的基于Lucene的农业垂直搜索系统设计,包括以下步骤:
第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;
第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略,提高了中文分词的效率和准确性;
第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;
第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;
第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;
第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;
第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。
本发明与现有技术相比较,本发明的基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。
具体实施方式
本发明的基于Lucene的农业垂直搜索系统设计,包括以下步骤:
第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;
第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略,提高了中文分词的效率和准确性;
第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨派腾农业科技有限公司,未经哈尔滨派腾农业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610901204.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能问答的实现方法及装置
- 下一篇:一种安全监测系统的移动客户端设计