[发明专利]数据处理方法、装置及电子设备在审

申请号：	202011448200.5	申请日：	2020-12-09
公开（公告）号：	CN112579919A	公开（公告）日：	2021-03-30
发明（设计）人：	何永能	申请（专利权）人：	小红书科技有限公司
主分类号：	G06F16/9537	分类号：	G06F16/9537;G06F40/295;G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王娇娇
地址：	200433 上海市杨浦区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开一种数据处理方法、装置及电子设备。该方法包括：获取待处理的地址数据；对获取的地址数据进行筛选，获得相似地址数据对；提取相似地址数据对的特征信息，特征信息包括实体名称的文本距离、实体名称的前缀相似度、实体名称的后缀相似度、实体名称的编辑距离、以及实体地址的球面距离；将相似地址数据对的特征信息输入预先完成训练的识别模型，得到预测结果；基于预测结果确定相似地址数据对包含的两条地址数据是否为重复数据。基于本申请公开的方案，能够快速、准确地筛选出待处理的地址数据中的重复数据。

技术领域

本申请属于数据处理技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

向用户提供生活服务的公司，会在数据库存储海量的数据，例如地址数据。随着数据量的不断增加，数据质量会出现下降。例如，针对同一实体(如酒店、餐厅、景点)可能存在多条地址数据，即数据库存在重复数据。

数据库中的重复数据会给上层应用的数据调用带来麻烦，而且也会给用户带来不良的用户体验，例如，当用户输入定位信息后，可能向用户反馈多条地址数据。

因此，如何筛选出重复的地址数据，以便对重复数据进行清洗，从而提高用户体验，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种数据处理方法、装置及电子设备，能够筛选出重复的地址数据，以便对重复数据进行清洗，从而提高用户体验。

为实现上述目的，本申请提供如下技术方案：

本申请提供一种数据处理方法，包括：

获取待处理的地址数据，所述地址数据包括实体名称和实体地址；

对所述地址数据进行筛选，获得相似地址数据对；