[发明专利]一种地理位置敏感的搜索引擎方法和系统有效
申请号: | 201310704016.6 | 申请日: | 2013-12-19 |
公开(公告)号: | CN103678629A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 姜丹;高勇;李浩然;刘家骏;郭潇;程静 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 朱红涛 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地理位置 敏感 搜索引擎 方法 系统 | ||
技术领域
本发明提供一种搜索引擎方法和系统,具体涉及一种考虑网页地理位置信息及链接关系的网页检索方法,并提供了相应的搜索引擎系统,属于地理信息检索领域。
背景技术
随着信息技术的发展,互联网已经成为重要的数据来源,近年来云技术的普及在解决数据共享问题的同时,也给信息挖掘和知识发现带来严峻的考验。在大数据时代如何有效挖掘出高相关性、高可靠性的数据显得尤为重要。根据Mark Sanderson等人的研究(Sanderson M,Kohler J.Analyzing geographic queries[C]//SIGIR Workshop on Geographic Information Retrieval.2004,2),15%-19%的网页搜索查询都是地理相关的,基于地理信息的网页检索具有很大的研究价值和实际意义。
传统的网页排序方法主要采用PageRank算法(Page L,Brin S,Motwani R,et al.The PageRank citation ranking:bringing order to the web[J].1999),该算法基于网页链接关系计算每个网页的排序得分,同时根据主题进行加权,对于一般主题相关的查询能够返回满意的结果,但却无法根据检索词与网页间地理相关性进行排序;Bruno Martins等人对地理信息检索的研究(Martins B,Calado P.Learning to rank for geographic information retrieval[C]//Proceedings of the6th Workshop on Geographic Information Retrieval.ACM,2010:21)则是针对文档的,最终结果以地理相关性和文本相关性进行排序,该方法缺少对网络结构的考虑,无法过滤掉垃圾网页;Saeid Asadi等人的工作(Asadi S,Zhou X,Yang G.Using local popularity of web resources for geo-ranking of search engine results[J].World Wide Web,2009,12(2):149-170)将不属于查询范围的网页从网络结构图中直接删除,对地理相关性的判定不精确,同时对网络结构图的修改也使垃圾网页不能很好地剔除。目前还没有一种方法能够很好地兼顾地理相关性和网页链接关系。
发明内容
术语定义:“地理热点”也称为POI(Point of Interest,兴趣点),是空间位置已知、在现实世界中具有明确标识的地点,例如一栋房子、一个商铺、一个邮筒、一个公交站等。“网页的地理范围”指网页包含的地理名词所对应空间坐标的点集;“关键词的地理范围”指查询语 句对应的空间点集;“基于地理信息的搜索”指用户输入地理关键词,希望返回的网页地理范围与关键词的地理范围最邻近,并且返回的网页能包含可靠的信息(非垃圾网页)。
本发明的目的是提供一种新的网页重要性评价方法和搜索引擎方法及系统,综合考虑网页包含的地理位置信息和网页的链接关系对网页进行评分,在用户进行地理信息检索时能实时提供与查询语句地理范围最邻近、最权威的网页。
本发明提供的技术方案如下:
本发明首先提供一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。
本发明同时提供一种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤:
S1、离线计算各网页关于地理热点的得分,执行如下操作:
S101:选取POI库中的地理热点作为参考点;
S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310704016.6/2.html,转载请声明来源钻瓜专利网。