[发明专利]一种基于Lucene的农业垂直搜索系统设计在审

专利信息
申请号: 201610901204.1 申请日: 2016-10-14
公开(公告)号: CN107958002A 公开(公告)日: 2018-04-24
发明(设计)人: 马廷彦 申请(专利权)人: 哈尔滨派腾农业科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150036 黑龙江省哈尔*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Lucene的农业垂直搜索系统设计,包括以下步骤第一步,研究网络蜘蛛采集原理;第二步,研究搜索引擎中文分词的问题;第三步,研究如何去除重复页面的问题;第四步,信息抽取技术的研究;第五步,农业垂直搜索系统的结构设计;第六步,农业垂直搜索系统的全文搜索设计;第七步,农业垂直搜索系统的功能开发。本发明的基于Lucene的农业垂直搜索系统设计,在Lucene基础上建立农业企业信息库、供应信息库和需求信息库,为用户提供基于文字描述的农业信息搜索服务;同时具有一般数据挖掘的基本功能,可以根据用户的访问记录调用专家推荐系统为用户提供推荐信息。
搜索关键词: 一种 基于 lucene 农业 垂直 搜索 系统 设计
【主权项】:
一种基于Lucene的农业垂直搜索系统设计,其特征在于,包括以下步骤:第一步,研究网络蜘蛛采集原理,研究网络蜘蛛页面采集原理,利用Spider作业调度系统实现定时调用网络蜘蛛,完成对目标页面集批量更新;采用页面算法,及时发现并抓取网络中出现的新页面,进一步提高信息的实时性;采用从严限制抓取策略,比较精确地进行网页信息的抓取;第二步,研究搜索引擎中文分词的问题,针对搜索引擎中出现的各种中文问题做出相关介绍,同时根据农业搜索引擎的特点,提出一个基于词库的多种分词法共存的综合分词方案,并对词库的维护提出半智能半手工的维护词库的策略;第三步,研究如何去除重复页面的问题,针对搜索结果中出现的重复页面问题,应用MD5算法实现重复页面的去除;针对不同的过滤粒度要求,对MD5算法提出了使用MD5因子来控制过滤粒度的设计;第四步,信息抽取技术的研究,结合正则表达式和HtmlParser的技术特点,对农业目标网站采用了模板法进行信息抽取;通过网页清洗,抽取出结构化数据并以文本和数据库的形式存储;第五步,农业垂直搜索系统的结构设计,通过对农业用户和农业电子商务网站的调查、分析,并深入研究农业垂直搜索系统需要用到的各种技术后,运用面向对象的分析与设计方法,给出系统的总体结构和软件功能模块的具体划分;第六步,农业垂直搜索系统的全文搜索设计,介绍基于Java的全文索引引擎Lucene软件包,并应用该软件包的API来实现农业垂直系统的全文搜索;通过对Lucene的分析和研究,对系统的全文搜索进行设计;第七步,农业垂直搜索系统的功能开发,探讨基于垂直搜索和Lucene的农业搜索系统的开发方法;设计用户接口并对系统进行测试和性能分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨派腾农业科技有限公司,未经哈尔滨派腾农业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610901204.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top