[发明专利]一种基于网络自动构建地名数据集的方法有效

专利信息
申请号: 201610214120.0 申请日: 2016-04-07
公开(公告)号: CN105975477B 公开(公告)日: 2019-11-08
发明(设计)人: 张莹;何慧;马苗苗;王竹晓;刘少文;李超鹏;杜立明;文丰 申请(专利权)人: 华北电力大学
主分类号: G06F16/29 分类号: G06F16/29;G06F16/9537
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 张文宝
地址: 102206 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了属于计算机应用技术领域的一种基于网络自动构建地名数据集的方法。该基于网络自动构建地名数据集包括如下步骤:1,使用谷歌搜索引擎API从谷歌数据库中提取地理空间数据;2,从提取出的数据中过滤掉不相关的网页;3,导入步骤2的输出,提取地理信息;4,选择地理编码工具,把提取的地址信息转换成地理坐标,然后标记在地图上。本发明充分发挥数据提取模块搜索引擎的优势,用恰当的搜索查询关键词从网页中检索地理信息。在网页过滤模块中,采用过滤算法来排除那些无用的干扰数据。从网页这种非结构化数据源中有效的动态的提取出地理信息,使数据同时具有高完整度和实时性。本方法有很高的实用价值。
搜索关键词: 一种 基于 网络 自动 构建 地名 数据 方法
【主权项】:
1.一种基于网络自动构建地名数据集的方法,其特征在于,基于网络自动构建地名数据集包括如下步骤:步骤1:使用谷歌搜索引擎API从谷歌数据库中提取地理空间数据;首先确定搜索关键词,搜索引擎查询的关键词由三部分组成,即街道名称、城市名称和商业类型,其中街道名称是从公开的街道地图OSM中提取街道名称,商业类型是先手动提供受欢迎的商业类型,然后通过后面地图显示的结果来增加缺失的类型;然后选定搜索引擎,从网络搜索引擎中抽取地理空间数据,该地理空间数据取决于搜索引擎的工作原理,搜索引擎的工作方式分为搜集信息、整理信息、接受查询;根据搜索方式的不同,又分为全文搜索、目录索引与元搜索;步骤2:从提取出的数据中过滤掉不相关的网页;步骤3:导入步骤2的输出,提取地理信息;具体包括:步骤C1:在地址抽取过程中,会有两种情况,第一种情况是整个地址信息都在一行里,第二种情况是地址信息在多行里;步骤C2:在步骤C1的第一种情况下,判断网页中的一行是否以数字开头、包含城市名称,并且行的长度少于给定的临界值;步骤C3:在步骤C1的第二种情况下,用步骤C2同样的方法来判别把两行连成一起后是否代表一个地址:如果第一行以数字开头,第二行含有城市名,在两行的长度小于给定的临界值的前提下,这两行一起作为地址被抽取;步骤C4:判定抽取出的地址是否超过一个,如果包含多个地址,则返回地址列表,即是说,当一个网页中提取出的地址多于一个时,把该网页中所有地址均提取出来,返回到地址列表中;步骤C5:在步骤C4返回地址列表的前提下,对列表中的每一个地址进行搜索,在所有返回的网页中,如果返回的网页仅仅包含一个地址,而且与索引地址相同,则相应的网址标题被认做是地点名称;步骤C6:最后,从地址列表中的每一个地址,得到相应的地名:步骤4:选择地理编码工具,把提取的地址信息转换成地理坐标,然后标记在地图上;包括如下步骤:步骤D1:上传数据集到一种地理编码工具上,使数据出现在上面;步骤D2:地理编码工具自动检测位置数据,并以标签形式展现;步骤D3:点击标签,相应的信息就会呈现出来;步骤D4:依据步骤D2地理编码工具自动检测位置数据,并以标签形式展现来选择能展示的数据或不能展示的数据,或选择以何种形式进行展示;在工作中定义了两种针脚,带Y标签的蓝色针脚展示了从信息抽取步骤中获取的正确的地点名称,而带N标签的红色针脚呈现的是那些被滤出的信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610214120.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top