[发明专利]一种基于web数据挖掘的地理信息获取方法在审
申请号: | 201810650101.1 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108984640A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 张莹;张昕;胡祥;杨普海;高铭壑;马群飞;汪澄 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 张文宝 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理信息 名称信息 网页 计算机应用技术 地址提取模块 可视化模块 数据完整性 关注区域 后续模块 名称提取 输入模块 挖掘 可视化 源数据 出谷 评估 街道 展示 | ||
1.一种基于web数据挖掘的地理信息获取方法,其特征在于,包括步骤如下:
步骤1:设定所关注的兴趣点POI类型,提取所关注区域的街道、城市、州或省和国家信息;
步骤2:基于步骤1的数据,利用网络搜索引擎的应用程序编程接口API,获取POI的街道地址信息;
步骤3:基于步骤2的数据,利用网路搜索引擎的API,获取POI的名称信息;
步骤4:利用地理编码工具,在地图上标出可视化POI的地址-名称信息。
2.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,所述步骤1包括以下步骤:
步骤A1:对于关注的区域,设定所搜索的POI的类型,包括学校、饭店、教堂;所述POI类型从Google公司提供的电子地图中搜索得到;此款电子地图能够提供含有全球城市政区、交通以及商业信息的矢量地图,其使用的POI类型包含90种,本步骤所述的POI类型与其相同或自定义POI类型;
步骤A2:从OSM(OpenSreetMap)或Baidu Map中提取街道、城市、州或省和国家名称;OSM是一个网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图;利用OSM的API下载所关注区域的信息,以XML格式存储,从中提取所需要的街道名、城市名、州或省名和国家名。
3.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,所述步骤2包括以下步骤:
步骤B1:选定所使用的搜索引擎。由于谷歌搜索引擎的适应性和丰富性,因此选用谷歌搜索引擎或Bing搜索引擎的API为搜索工具;
步骤B2:确定搜索关键词组合,设定的关键词组合为“POI类型街道名城市名”,包含POI类型、街道名、城市名三个部分,均来自步骤B1所获取的;
步骤B3:建立街道字典和地址模式,利用步骤B1提取的OSM中的信息,建立所关注区域的街道字典和统一的地址模式,街道字典中包含每条街道的方向、名称和类型,地址模式建立在街道地址之上,规定了区域内的地址所应遵循的模式,二者共同用于提取街道地址;
步骤B4:提取搜索结果中的POI地址,利用选定的搜索引擎API中搜索关键词组合,得到对应的搜索结果,基于街道字典和地址模式在结果中提取POI地址。
4.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,所述步骤3包括以下步骤:
步骤C1:建立不相关网页过滤模型,针对后续步骤中的问题,此步骤发现若搜索关键词包含地址,则搜索结果包含大量的房地产信息网页,这些网页中的内容绝大多数是有关待售房屋的信息,在后续提取POI名称时,对提取速度和准确性会产生显著的消极影响;因此,在建立了一个基于统一资源定位符URL的网页过滤模型,首先,使用搜索引擎搜索任意一家房地产公司网站所包含的最近售卖的住宅,提取搜索结果中的URL,解析URL中的特征作为训练数据。然后,采用基于训练数据,使用机器学习方法,建立一个识别房地产网页的分类模型,用于过滤房地产网址;
步骤C2:确定欲提取名称的搜索关键词,由于一个地址可能对应多个POI,因此需要先提取每个POI地址对应的多个可能的名称,实验发现,将POI地址作为搜索关键词时,其搜索结果的网页的标题中极有可能包含POI名称,而且名称基本位于标题的开头,这一步,设定的关键词为“POI地址”,即搜索POI地址对应的搜索结果。
5.根据权利要求1所述基于web数据挖掘的地理信息获取方法,其特征在于,在步骤4中,选择了谷歌地理编码工具名为Google Fusion Tables,对结果进行可视化展示或选择其他的ArcGIS地理编码工具,先将数据上传到该工具,在进行地理编码即将地址转化为经纬度后,数据将以不同的形式展示在地图上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810650101.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:服务器集群的数据处理方法和装置
- 下一篇:一种基于WEB端的页面跳转方法