[发明专利]一种基于web数据挖掘的地理信息获取方法在审
申请号: | 201810650101.1 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108984640A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 张莹;张昕;胡祥;杨普海;高铭壑;马群飞;汪澄 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 张文宝 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理信息 名称信息 网页 计算机应用技术 地址提取模块 可视化模块 数据完整性 关注区域 后续模块 名称提取 输入模块 挖掘 可视化 源数据 出谷 评估 街道 展示 | ||
本发明公开了属于计算机应用技术领域的一种基于web数据挖掘的地理信息获取方法,该地理信息获取方法一共有四个模块,POI源数据输入模块,提取所关注区域的相关地理信息,为后续模块准备数据;在POI地址提取模块中,从与POI类型和街道相关的网页中提取POI地址;POI名称提取模块是利用相关网页的标题来提取有用的名称信息。最后,可视化模块把已经提取的POI地址‑名称信息进行可视化,展示和评估提取效果。本发明获得了数据完整性和准确性相对更好的结果,而且可以提取出谷歌地图中缺失的数据,本发明有很高的实用价值。
技术领域
本发明属于计算机应用技术领域,特别涉及一种基于web数据挖掘的地理信息获取方法。
背景技术
当前,地理信息领域的POI(兴趣点)信息在各种应用中发挥着非常关键的作用,比如,基于POI的定位、导航、搜索服务,都需要依赖大量而准确的POI信息。对于这些需求,需要自动化的POI信息提取方法。互联网上,一些开放的地图服务(例如,Google Maps,OpenStreetMap等)会提供POI(兴趣点)信息,但是这些服务的数据要么花费巨额的费用来实地采集或购买,要么由使用服务的志愿者提供。但采用实时采集的方法采集的数据缺乏时效性,而由志愿者提供的数据通常因为缺失严重而无法直接使用。在互联网中,由用户生成的非结构化数据与日俱增,而地理空间信息(诸如地名,地址和电话号码等)在网页中通常以半结构化的方式存在,嵌入在Web数据和文档中的地理信息的自动识别和结构化提取仍然是一件很困难的任务。因此,从互联网中自动提取地理空间信息的技术变得越来越重要。
对于从网络的非结构化的内容中提取的地理信息,怎样界定地理信息的确切内容也是一大挑战,这通常被称为命名实体识别。目前的命名实体识别方法主要有两种:基于规则和词典的方法、基于统计的方法,前者需要语言专家构造的规则模板和巨大的词典,而后者需要一个巨大的语料库来训练模型。
综上,目前,在基于网络中的非结构化数据源的地理信息提取方面,还缺少有效而实用的方法,而针对POI信息提取,网络中的非结构化源的数据则可有效解决时效性问题。
发明内容
本发明的目的是提出一种基于web数据挖掘的地理信息获取方法,其特征在于,包括步骤如下:
步骤1:设定所关注的POI类型,提取所关注区域的街道、城市、州或省和国家信息;
步骤2:基于步骤1的数据,利用网络搜索引擎的API(应用程序编程接口),获取POI的街道地址信息;
步骤3:基于步骤2的数据,利用网路搜索引擎的API,获取POI的名称信息;
步骤4:利用地理编码工具,在地图上标出可视化POI的地址-名称信息。
所述步骤1包括以下步骤:
步骤A1:对于关注的区域,设定所搜索的POI的类型,包括学校、饭店、教堂;所述POI类型从Google公司提供的电子地图中搜索得到;此款电子地图能够提供含有全球城市政区、交通以及商业信息的矢量地图,其使用的POI类型包含90种,本步骤所述的POI类型与其相同或自定义POI类型;
步骤A2:从OSM(OpenSreetMap)或Baidu Map中提取街道、城市、州或省和国家名称;OSM是一个网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图;利用OSM的API下载所关注区域的信息,以XML格式存储,从中提取所需要的街道名、城市名、州或省名和国家名。
所述步骤2包括以下步骤:
步骤B1:选定所使用的搜索引擎。由于谷歌搜索引擎的适应性和丰富性,因此选用谷歌搜索引擎或Bing搜索引擎的API为搜索工具;
步骤B2:确定搜索关键词组合,设定的关键词组合为“POI类型街道名城市名”,包含POI类型、街道名、城市名三个部分,均来自步骤B1所获取的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810650101.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:服务器集群的数据处理方法和装置
- 下一篇:一种基于WEB端的页面跳转方法