[发明专利]人为填写的地址文本相似度处理方法和系统有效

专利信息
申请号: 201810316265.0 申请日: 2018-04-10
公开(公告)号: CN108536657B 公开(公告)日: 2021-09-21
发明(设计)人: 张韶峰;段莹;冯鑫;王文皓 申请(专利权)人: 百融云创科技股份有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/30;G06F40/279;G06F40/205
代理公司: 北京立成智业专利代理事务所(普通合伙) 11310 代理人: 张江涵
地址: 100043 北京市石景*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 人为 填写 地址 文本 相似 处理 方法 系统
【说明书】:

发明实施例公开了一种人为填写的地址文本相似度处理方法和系统。本发明实施例以一种合理的方式去除地址中出现的常规字符,从而去除地址常规字符所引起的错误的相似度贡献。用较低的时间复杂度计算出两个地址中所有大于两个长度的公共子串。设计出能够将公共子串长度序列映射成[0,1]空间的增函数,该函数合理的描述了由人为填写地址数据的特点。并设计了一种能够将并不相似但实际为相同地址识别出来的地址聚类算法。

技术领域

本发明涉及电子技术领域,特别是一种人为填写的地址文本相似度处理方法和系统。

背景技术

地址是用于邮寄各种物品必不可少的环节,随着快递业和电商的发展,现在社会通过邮寄的方式输送的各种文件和商品已经成为了人们生活中不可或缺的一部分。同时地址不仅仅是邮寄各种物品的重要环节,还在进行用户画像时具有非常重要的意义。在进行用户画像时,地址数据以及地址周边环境数据的重要程度非常高。在贷款前审批、贷款后失联修复、反欺诈等领域,地址数据在进行统计建模或数据挖掘过程中都起到非常重要的作用。

在电子化填写地址时,可以通过地址数据匹配的方式引导使用者完善地址数据。但是在手填地址时,由于人工填写具有很大的随意性,很容易导致地址缺失或错误。由于地址填写是给快递员看的,这就给用户填写地址时带来很大的随意性。这种随意性人类很容易辨别,但是计算机却无能为力;而如何能够使得计算机在海量数据中识别非格式化的地址并进行后续的相应操作一直是数据处理、数据挖掘领域的关注要点。对于计算机来说地址就是一串字符串,而确定不同字符串之间的相似度以进行地址相似度度量是非常重要的环节。现有的方法主要包括:

1、夹角余弦法:

该方法是将两个地址的文字以向量化表示,然后根据两个向量之间的夹角余弦值来确定两个向量之间的相似度,以此作为两个地址之间的相似度。

例如以下的三组地址:

北京市,朝阳区,西大望路,麦当劳

北京市,朝阳区,望和桥西,麦当劳

北京市,朝阳区,西大望路,地铁旁麦当劳;

以下面的一组地址为例,这三个地址拆分后可用于对比的有效字段仅为:

西大望路麦当劳

望和桥西麦当劳

西大望路地铁旁麦当劳;

(1)此时先计算“西大望路麦当劳”和“望和桥西麦当劳”的夹角余弦:

按照字典序对两个地址中所有的汉字进行排列:[大,当,和,劳,路,麦,桥,望,西];

计算两个地址的向量分别为和

通过以下的公式计算两个向量之间的夹角余弦:

(2)然后计算“西大望路麦当劳”和“西大望路地铁旁麦当劳”的夹角余弦:采用与前面的(1)相同的方法可以计算出这两个地址之间的夹角余弦为cosθ=0.6。

但是这种方案的缺点非常明显:

对于人类来说可以很快知道“西大望路麦当劳”和“望和桥西麦当劳”不可能是同一个地址,而“西大望路麦当劳”和“西大望路地铁旁麦当劳”则有很大概率是同一个地址。但是利用夹角余弦法计算出的前者的相似度还要高于后者的相似度11%以上;因此可以看出夹角余弦法无法像人类一样来处理相似的地址。这是由于夹角余弦法只考虑了相同的字符,但是没有考虑相同字符的连续性。西大望路与望和桥西,二者公共部分都有西,望二字,但是由于西,望二字没有靠在一起,所以这两个字对相似度没有任何贡献。夹角余弦法不能表达字符之间是否连续的这个特征。

2、编辑距离法:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融云创科技股份有限公司,未经百融云创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810316265.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top