[发明专利]一种基于网络自动构建地名数据集的方法有效
申请号: | 201610214120.0 | 申请日: | 2016-04-07 |
公开(公告)号: | CN105975477B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 张莹;何慧;马苗苗;王竹晓;刘少文;李超鹏;杜立明;文丰 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/9537 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 张文宝 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了属于计算机应用技术领域的一种基于网络自动构建地名数据集的方法。该基于网络自动构建地名数据集包括如下步骤:1,使用谷歌搜索引擎API从谷歌数据库中提取地理空间数据;2,从提取出的数据中过滤掉不相关的网页;3,导入步骤2的输出,提取地理信息;4,选择地理编码工具,把提取的地址信息转换成地理坐标,然后标记在地图上。本发明充分发挥数据提取模块搜索引擎的优势,用恰当的搜索查询关键词从网页中检索地理信息。在网页过滤模块中,采用过滤算法来排除那些无用的干扰数据。从网页这种非结构化数据源中有效的动态的提取出地理信息,使数据同时具有高完整度和实时性。本方法有很高的实用价值。 | ||
搜索关键词: | 一种 基于 网络 自动 构建 地名 数据 方法 | ||
【主权项】:
1.一种基于网络自动构建地名数据集的方法,其特征在于,基于网络自动构建地名数据集包括如下步骤:步骤1:使用谷歌搜索引擎API从谷歌数据库中提取地理空间数据;首先确定搜索关键词,搜索引擎查询的关键词由三部分组成,即街道名称、城市名称和商业类型,其中街道名称是从公开的街道地图OSM中提取街道名称,商业类型是先手动提供受欢迎的商业类型,然后通过后面地图显示的结果来增加缺失的类型;然后选定搜索引擎,从网络搜索引擎中抽取地理空间数据,该地理空间数据取决于搜索引擎的工作原理,搜索引擎的工作方式分为搜集信息、整理信息、接受查询;根据搜索方式的不同,又分为全文搜索、目录索引与元搜索;步骤2:从提取出的数据中过滤掉不相关的网页;步骤3:导入步骤2的输出,提取地理信息;具体包括:步骤C1:在地址抽取过程中,会有两种情况,第一种情况是整个地址信息都在一行里,第二种情况是地址信息在多行里;步骤C2:在步骤C1的第一种情况下,判断网页中的一行是否以数字开头、包含城市名称,并且行的长度少于给定的临界值;步骤C3:在步骤C1的第二种情况下,用步骤C2同样的方法来判别把两行连成一起后是否代表一个地址:如果第一行以数字开头,第二行含有城市名,在两行的长度小于给定的临界值的前提下,这两行一起作为地址被抽取;步骤C4:判定抽取出的地址是否超过一个,如果包含多个地址,则返回地址列表,即是说,当一个网页中提取出的地址多于一个时,把该网页中所有地址均提取出来,返回到地址列表中;步骤C5:在步骤C4返回地址列表的前提下,对列表中的每一个地址进行搜索,在所有返回的网页中,如果返回的网页仅仅包含一个地址,而且与索引地址相同,则相应的网址标题被认做是地点名称;步骤C6:最后,从地址列表中的每一个地址,得到相应的地名:步骤4:选择地理编码工具,把提取的地址信息转换成地理坐标,然后标记在地图上;包括如下步骤:步骤D1:上传数据集到一种地理编码工具上,使数据出现在上面;步骤D2:地理编码工具自动检测位置数据,并以标签形式展现;步骤D3:点击标签,相应的信息就会呈现出来;步骤D4:依据步骤D2地理编码工具自动检测位置数据,并以标签形式展现来选择能展示的数据或不能展示的数据,或选择以何种形式进行展示;在工作中定义了两种针脚,带Y标签的蓝色针脚展示了从信息抽取步骤中获取的正确的地点名称,而带N标签的红色针脚呈现的是那些被滤出的信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610214120.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动质检方法及系统
- 下一篇:一种基于中文短语串频度的聚类方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置