[发明专利]人为填写的地址文本相似度处理方法和系统有效
申请号: | 201810316265.0 | 申请日: | 2018-04-10 |
公开(公告)号: | CN108536657B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 张韶峰;段莹;冯鑫;王文皓 | 申请(专利权)人: | 百融云创科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F40/279;G06F40/205 |
代理公司: | 北京立成智业专利代理事务所(普通合伙) 11310 | 代理人: | 张江涵 |
地址: | 100043 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种人为填写的地址文本相似度处理方法和系统。本发明实施例以一种合理的方式去除地址中出现的常规字符,从而去除地址常规字符所引起的错误的相似度贡献。用较低的时间复杂度计算出两个地址中所有大于两个长度的公共子串。设计出能够将公共子串长度序列映射成[0,1]空间的增函数,该函数合理的描述了由人为填写地址数据的特点。并设计了一种能够将并不相似但实际为相同地址识别出来的地址聚类算法。 | ||
搜索关键词: | 人为 填写 地址 文本 相似 处理 方法 系统 | ||
【主权项】:
1.一种人为填写的地址文本相似度处理方法,其特征在于,包括:步骤A1、获取N个待对比地址中的任意两个地址,获取该每个地址中的地址常规字符并将所述地址常规字符作为断字符,以在计算地址连续性时,遇到断字符时停止累加计数,从而将每一地址分割为多个子串,以去除地址常规字符所引起的错误的相似性贡献,并且能够确保在去掉由常规字符引起错误的相似性贡献时,不会引入新的相似性贡献错误;其中所述地址常规字符包括以下的至少一种:['区','街','道','县','路','镇','乡','市',',',','];步骤A2、对比两个地址以获取两个地址之间所有的公共子串,其中公共子串为两个地址之间相同的字符串,其中每个相同子串应至少包括两个字符;其中获取的所有公共子串的方式采用了自改造的动态规划方法,从而使得找出多个公共子串与找出一个公共子串的时间复杂度相同。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百融云创科技股份有限公司,未经百融云创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810316265.0/,转载请声明来源钻瓜专利网。