[发明专利]一种增量码库的建立方法和装置有效
| 申请号: | 201210227185.0 | 申请日: | 2012-06-30 |
| 公开(公告)号: | CN103514235B | 公开(公告)日: | 2017-03-08 |
| 发明(设计)人: | 林锡通;段建国 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 增量 建立 方法 装置 | ||
【技术领域】
本发明涉及地理信息技术领域,特别涉及一种增量码库的建立方法和装置。
【背景技术】
码库,又称为地理编码参考数据库(geocode reference dataset),是为识别点、线、面的位置和属性而设置的编码数据库,它将全部实体按照预先拟定的分类系统,选择最适宜的量化方法,按实体的属性特征和集合坐标的数据结构记录在计算机的储存设备上。在进行地理编码时,通常是根据各数据点的地理坐标或空间地址(如省市、街区、楼层、房间等),将数据库中的数据与其在地图上相对应的图形元素一一对应,即给每个数据赋予X和Y坐标值(经度/纬度值),从而确定该数据标在图上的位置的过程。
随着基于位置的定位技术的不断发展,特别是导航和移动设备的普及,用户对地理空间数据的准确性、完整性和实时性提出了更高的要求。因此,空间数据提供商会对地理空间数据库进行持续不断的更新,并向数据用户分发更新信息,以提高地理空间数据的实时性。现有空间数据提供商的更新服务可分为批量式更新和增量式更新两种方式:批量式更新向用户提供新版数据的全部内容,这种更新方式存在传输效率低、用户端更新困难等诸多问题;增量式更新只向客户提供发生变化的信息,这种更新方式更加科学,是一种更有效的更新信息发布方式。
当空间数据提供商发布更新信息后,空间数据的用户也需要相应地将更新信息挖掘成对应的码库信息。无论空间数据提供商提供的是批量式更新数据还是增量式更新数据,现有的码库挖掘方法均是通过对所有数据进行一次性的挖掘,即全量挖掘,以生成地理编码数据。这种全量挖掘的方式首先是效率低,每次有数据更新都需要重新对所有数据运行一遍挖掘流程;其次是无法继承人工修改的数据,也就是上次纠正的数据会在下一次全量挖掘过程中需要重新进行人工修改,导致浪费人力物力。
【发明内容】
有鉴于此,本发明提供了一种增量码库的建立方法和装置,能够有效区分更新数据中的冗余数据,利用非冗余数据形成增量码库,提高了数据处理的效率,能对人工修改的结果进行继承,节省资源,并通过对多个候选数据进行判重和校验,提高了数据的准确性。
具体技术方案如下:
一种增量码库的建立方法,该方法包括以下步骤:
S1、获取数据图的更新数据;
S2、利用所获取的更新数据与历史增量数据库中的历史增量数据进行比较,将关键属性相异的更新数据确定为非冗余数据;
S3、提取所述非冗余数据中描述地理对象的信息,添加到候选码库中;
S4、对所述候选码库中各候选数据的地理对象名称和空间位置进行判断,将描述同一个地理对象且空间位置在预设阈值范围内的多个候选数据归为同一个判重组;
S5、对同一个判重组内的多个候选数据,根据各候选数据的数据来源的可信度计算各候选数据的权值;
S6、将权值最高的候选数据作为该判重组的码库数据,构成增量码库。
根据本发明一优选实施例,在所述步骤S 1之后,还包括:
对所获取的更新数据的格式进行预处理,转换成预定义的数据格式。
根据本发明一优选实施例,所述关键属性包括:
数据的名称、地址、数据来源、可信度和空间位置;
所述关键属性相异的更新数据是指与所述历史增量数据相比,至少有一种关键属性相异的数据。
根据本发明一优选实施例,在所述步骤S2之后,还包括:
将所确定的非冗余数据添加到所述历史增量数据库中。
根据本发明一优选实施例,所述步骤S3包括:
步骤S3_1、对所述非冗余数据的名称或地址进行分词;
步骤S3_2、从名称或地址的分词结果中按照预定义的规则进行规范化处理后,得到描述地理对象的地理对象名称;
步骤S3_3、关联确定所述地理对象名称对应的属性信息,组成一条候选数据,添加到候选码库中;
其中,所述对应的属性信息至少包括:该地理对象的空间位置。
根据本发明一优选实施例,所述关联确定所述地理对象名称对应的属性信息,包括:
将所述地理对象名称所在的非冗余数据中包含的属性信息,确定为该地理对象名称所在的候选数据对应的属性信息;
根据所述空间位置,对所述候选数据进行最小外接矩形计算,预估所述候选数据的范围大小。
根据本发明一优选实施例,在所述根据各候选数据的数据来源的可信度计算各候选数据的数据权值之前,还包括:
判断所述判重组中的候选数据是否正确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210227185.0/2.html,转载请声明来源钻瓜专利网。





