[发明专利]数据处理方法、装置及电子设备在审
申请号: | 202011448200.5 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112579919A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 何永能 | 申请(专利权)人: | 小红书科技有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F40/295;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
地址: | 200433 上海市杨浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 | ||
本申请公开一种数据处理方法、装置及电子设备。该方法包括:获取待处理的地址数据;对获取的地址数据进行筛选,获得相似地址数据对;提取相似地址数据对的特征信息,特征信息包括实体名称的文本距离、实体名称的前缀相似度、实体名称的后缀相似度、实体名称的编辑距离、以及实体地址的球面距离;将相似地址数据对的特征信息输入预先完成训练的识别模型,得到预测结果;基于预测结果确定相似地址数据对包含的两条地址数据是否为重复数据。基于本申请公开的方案,能够快速、准确地筛选出待处理的地址数据中的重复数据。
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
向用户提供生活服务的公司,会在数据库存储海量的数据,例如地址数据。随着数据量的不断增加,数据质量会出现下降。例如,针对同一实体(如酒店、餐厅、景点)可能存在多条地址数据,即数据库存在重复数据。
数据库中的重复数据会给上层应用的数据调用带来麻烦,而且也会给用户带来不良的用户体验,例如,当用户输入定位信息后,可能向用户反馈多条地址数据。
因此,如何筛选出重复的地址数据,以便对重复数据进行清洗,从而提高用户体验,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法、装置及电子设备,能够筛选出重复的地址数据,以便对重复数据进行清洗,从而提高用户体验。
为实现上述目的,本申请提供如下技术方案:
本申请提供一种数据处理方法,包括:
获取待处理的地址数据,所述地址数据包括实体名称和实体地址;
对所述地址数据进行筛选,获得相似地址数据对;
提取所述相似地址数据对的特征信息,所述特征信息包括实体名称的文本距离、实体名称的前缀相似度、实体名称的后缀相似度、实体名称的编辑距离、以及实体地址的球面距离;
将所述相似地址数据对的特征信息输入预先完成训练的识别模型,得到所述识别模型对所述特征信息进行处理后输出的预测结果;
基于所述预测结果确定所述相似地址数据对包含的两条地址数据是否为重复数据。
可选的,在上述数据处理方法的基础上,还包括:
针对被确定为重复数据的多条地址数据,按照预设规则进行数据清洗,仅保留所述多条地址数据中的一条。
可选的,在上述数据处理方法中,所述对所述地址数据进行筛选,获得相似地址数据对,包括:
确定每条地址数据所属的类别;
针对属于同一类别的多条地址数据,确定任意两条地址数据中实体名称的相似度,将相似度达到预设的相似度阈值的两条地址数据作为备选相似地址数据对;
针对每一备选相似地址数据对,确定所述备选相似地址数据对中实体地址的球面距离,将球面距离小于预设的球面距离阈值的备选相似地址数据对确定为相似地址数据对。
可选的,所述预测模型的训练过程包括:
获得多个训练样本,所述训练样本包括两条样本地址数据,并且所述训练样本具有标注信息,所述标注信息指示所述训练样本中的两条样本地址数据是否为重复数据;
提取所述训练样本的特征信息;
利用预先构建的学习模型对所述训练样本的特征信息进行处理,获得预测结果;
根据所述训练样本的预测结果和标注信息调整所述学习模型,直至调整后的学习模型满足预设收敛条件,将满足预设收敛条件的学习模型确定为所述识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小红书科技有限公司,未经小红书科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011448200.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无蔗糖蜜饯及其生产方法
- 下一篇:一种文昌鸡的养殖培育方法