[发明专利]一种基于Lucene的农业垂直搜索系统设计在审
申请号: | 201610901204.1 | 申请日: | 2016-10-14 |
公开(公告)号: | CN107958002A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 马廷彦 | 申请(专利权)人: | 哈尔滨派腾农业科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150036 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Lucene的农业垂直搜索系统设计,包括以下步骤第一步,研究网络蜘蛛采集原理;第二步,研究搜索引擎中文分词的问题;第三步,研究如何去除重复页面的问题;第四步,信息抽取技术的研究;第五步,农业垂直搜索系统的结构设计;第六步,农业垂直搜索系统的全文搜索设计;第七步,农业垂直搜索系统的功能开发。本发明的基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。 | ||
搜索关键词: | 一种 基于 lucene 农业 垂直 搜索 系统 设计 | ||
【主权项】:
一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨派腾农业科技有限公司,未经哈尔滨派腾农业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610901204.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种智能问答的实现方法及装置
- 下一篇:一种安全监测系统的移动客户端设计