[发明专利]一种大豆主题垂直搜索引擎的设计和实现方法在审
申请号: | 201610889512.7 | 申请日: | 2016-10-12 |
公开(公告)号: | CN107943801A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 马廷彦 | 申请(专利权)人: | 哈尔滨派腾农业科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150036 黑龙江省哈尔*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大豆主题垂直搜索引擎的设计和实现方法,所述方法包括以下步骤第一步,对通用搜索引擎和垂直搜索引擎的结构、原理进行分析;第二步,网页信息采集从网络蜘蛛、搜索策略和主题相关度三个方面进行深入的研究;第三步,索引的网页文档的中文分词预处理;第四步,对大豆主题垂直搜索引擎的原型系统进行实现。本发明的大豆主题垂直搜索引擎的设计和实现方法,立足于粮食主产区农业现实状况,针对农业信息化中普遍存在的信息资源共享程度低的问题,尤其是大豆产业信息化建设,为从事大豆生产、加工、科研及流通工作的人员提供数据资源共享并设计面向大豆主题的垂直搜索引擎。 | ||
搜索关键词: | 一种 大豆 主题 垂直 搜索引擎 设计 实现 方法 | ||
【主权项】:
一种大豆主题垂直搜索引擎的设计和实现方法,其特征在于,所述方法包括以下步骤:第一步,在明确研究背景的情况下,对通用搜索引擎和垂直搜索引擎的结构、原理进行分析,基于大豆主题,对主题搜索引擎的系统结构进行设计,并根据课题需要对网页信息采集、中文分词和索引等关键技术进行研究;第二步,网页信息采集从网络蜘蛛、搜索策略和主题相关度三个方面进行深入的研究,主题网络蜘蛛与通用网络蜘蛛最大的区别为前者是有选择的抓取主题相关的页面,而后者则是见网页就抓,主题网络蜘蛛是通过搜索策略和主题相关度分析进行选择性抓取的;本发明对搜索策略和主题相关度分析进行了研究,并对己有链接分析算法进行改进;第三步,索引的网页文档的中文分词预处理,本发明通过分词器对已有的分词算法和倒排索引技术进行介绍,并对开源Lucene索引框架进行分析;第四步,基于以上理论研究,对大豆主题垂直搜索引擎的原型系统进行实现,主要对该系统中的网页信息采集、索引和管理与审核三个模块进行实现,最终为大豆门户网站提供大豆主题数据资源。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨派腾农业科技有限公司,未经哈尔滨派腾农业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610889512.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种微博话题舆情计算与分析的方法
- 下一篇:一种日志分析方法和系统