[发明专利]一种兴趣点数据错误类型定位、重复识别方法及装置有效
申请号: | 201610309083.1 | 申请日: | 2016-05-11 |
公开(公告)号: | CN107368480B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 王世民 | 申请(专利权)人: | 中国移动通信集团辽宁有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兴趣 数据 错误 类型 定位 重复 识别 方法 装置 | ||
本发明公开了一种兴趣点数据错误类型定位方法,根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成基础字段的各分词所在的层数;POI数据对包括用户输入的POI数据和与用户输入的POI数据对应的POI原始数据;基础字段包括至少一个子字段;根据组成所述子字段的各分词所在的层数,计算POI数据对的子字段之间的相似度值;根据设置的子字段不同错误类型所对应的错误阈值,判定POI数据对的子字段之间的相似度值属于所述错误阈值时,定位POI原始数据的子字段的错误类型。同时,本发明还公开了一种兴趣点数据错误类型定位装置以及一种兴趣点数据重复识别方法及装置。
技术领域
本发明涉及数据质量控制领域,尤其涉及一种兴趣点数据错误类型定位、重复识别方法及装置。
背景技术
兴趣点(Point Of Interest,POI)在地理信息系统中泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、加油站等。POI的主要用途是通过对事物或事件的地址进行描述,增强对事物或事件位置的描述能力和查询能力,从而提高地理定位的精度和速度。为了给用户提供满足其个性化服务需求的产品,POI数据供应商如百度地图、大众点评等都会建立自己的POI数据库,POI数据库中存储有海量的POI数据,而每条POI数据包含有POI各方面的信息,例如名称、地址、类型等。其中,POI数据的准确性直接影响着用户的使用体验。然而,随着城市建设的快速扩张以及移动互联网的飞速发展,一些POI数据可能存在错误,比如POI数据中的信息不完整或POI数据中的信息已过时等,导致用户无法正确使用这些POI数据。因此,POI数据供应商需要对POI原始数据的正确性进行判断并实时更新POI原始数据。
现有技术中,POI数据供应商对POI原始数据的正确性进行判断的过程如下:获取用户输入的POI数据,并将其与已有的POI原始数据建立一一对应关系;通过编辑距离算法计算由用户输入的POI数据和POI原始数据组成的POI数据对的字符串之间的相似度,并依据该相似度以及设置的阈值对POI原始数据是否正确进行判定;最后,质检员根据个人经验对判定为错误的POI原始数据进行错误类型分类,从而监控POI数据质量。然而,人工操作不仅复杂度高、效率低,而且分类的精确度易受到个人主观因素影响。可见,现有技术方案无法准确定位POI数据错误类型。
此外,POI数据供应商在处理POI数据重复问题时,通常都是采用现有的相似度计算算法分别计算POI数据对的名称字段之间和地址字段之间的相似度值,并将上述相似度值进行线性组合;然后,通过比对依据人工经验所设置的疑似重复POI数据的判定阈值,筛选出疑似重复POI数据;最后,采用人工方式从所述疑似重复POI数据中抽取样本,确认真正的重复POI数据。然而,采用现有的相似度计算算法进行POI数据重复的判定时对POI各字段信息的完整性要求高,而POI数据重复往往是由于POI各字段信息不完整造成的,所以,采用现有技术方案判定POI数据是否重复的精确度不高。
发明内容
有鉴于此,本发明实施例期望提供一种兴趣点数据错误类型定位、重复识别方法及装置,能够准确定位POI数据错误类型以及对POI数据是否重复进行准确判定。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种兴趣点数据错误类型定位方法,所述方法包括:
根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述基础字段包括至少一个子字段;
根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团辽宁有限公司,未经中国移动通信集团辽宁有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610309083.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置