[发明专利]数据处理方法及系统、电子设备及存储介质有效
| 申请号: | 201910874489.8 | 申请日: | 2019-09-17 | 
| 公开(公告)号: | CN112100161B | 公开(公告)日: | 2021-05-28 | 
| 发明(设计)人: | 元野;林兵;郑德鹏;韦家强;李先涛 | 申请(专利权)人: | 上海寻梦信息技术有限公司 | 
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06F40/30;G06Q10/08 | 
| 代理公司: | 上海隆天律师事务所 31282 | 代理人: | 潘一诺 | 
| 地址: | 200051 上海市长宁*** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 系统 电子设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录中,第一地址和第二地址的比较是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
2.如权利要求1所述的数据处理方法,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
3.如权利要求1或2所述的数据处理方法,其特征在于,
所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一数据清洗操作具体为:删除该条物流记录。
4.如权利要求3所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:获取经过所述第一数据清洗操作所形成的第二样本数据;
遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
5.如权利要求4所述的数据处理方法,其特征在于,所述检测每一个相同的第二地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述检测每一条相同的第二地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。
6.如权利要求4所述的数据处理方法,其特征在于,
判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
7.如权利要求4-6中任意一项所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:
获取经过所述第二数据清洗操作所形成的第三样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
8.如权利要求4-6中任意一项所述的数据处理方法,其特征在于,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海寻梦信息技术有限公司,未经上海寻梦信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910874489.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双路进纸器及其打印机
- 下一篇:图像分辨方法及其监控摄像机与监控摄像系统





