[发明专利]垂直搜索引擎的实现方法有效
申请号: | 201210390588.7 | 申请日: | 2012-10-15 |
公开(公告)号: | CN102880721A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 黄水清;张尔宁;梁山 | 申请(专利权)人: | 瑞庭网络技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 殷晓雪 |
地址: | 200120 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种垂直搜索引擎的实现方法,首先建立地理词数据库、特征词数据库、地址检索训练库。然后由网页抓取程序搜集网页信息。接着由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个。最后由检索程序响应用户的查询内容。检索程序判断查询内容是否属于按地址检索;如果属于,则以坐标值、特征码、关键词单独或组合检索。如果不属于,则以特征码、关键词单独或组合检索。检索结果展示给用户。本申请采用朴素贝叶斯分类算法判断检索意图,并构建了网页的三类索引库,以这三类索引库相组合进行检索,由此可得到更符合用户需求、更为精准的检索结果。 | ||
搜索关键词: | 垂直 搜索引擎 实现 方法 | ||
【主权项】:
一种垂直搜索引擎的实现方法,其特征是,所述方法为:第一步,建立地理词数据库、特征词数据库、地址检索训练库;所述地理词数据库包括多个地理词;所述特征词数据库包括多个特征词及其相应的互不重复的特征码;所述地址检索训练库包括多段话、它们均已由人工分类为“具有按地址检索的意图”或“不具有按地址检索的意图”这两个类别之一;所述两个类别出现的概率值、每段话中的每个词汇对于所述两个类别的条件概率也已统计计算出;第二步,由网页抓取程序搜集网页信息;第三步,由索引程序为所搜集的网页建立坐标值索引、特征码索引和关键词索引中的一个或多个;第四步,由检索程序响应用户的查询内容;检索程序判断查询内容是否属于按地址检索;如果属于,则从查询内容中提取出地理词的坐标值、特征词的特征码,剩下的作为关键词,作为在坐标值索引库、特征码索引库、关键词索引库中单独或组合检索的条件;如果不属于,则从查询内容中提取出特征词的特征码,剩下的作为关键词,作为在特征码索引库、关键词索引库中单独组合检索的条件;检索结果展示给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞庭网络技术(上海)有限公司,未经瑞庭网络技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210390588.7/,转载请声明来源钻瓜专利网。
- 上一篇:风扇
- 下一篇:基于通用知识网络的词语语义倾向性预测方法