[发明专利]地址文本的相似度计算方法及装置在审
申请号: | 201710303312.3 | 申请日: | 2017-05-03 |
公开(公告)号: | CN108804398A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 蒋贤礼 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本相似度 地址字段 相似度 字段 相似度计算 求和 最大值设置 地址结构 解析 申请 | ||
本申请提供一种地址文本的相似度计算方法,包括:针对第一地址文本以及第二地址文本分别进行地址结构解析,以将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段;依次计算第一地址文本中的地址字段,与第二地址文本中对应的地址字段之间的文本相似度,并对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;依次计算第一地址文本中的地址字段,与第二地址文本中的各地址字段之间的文本相似度的最大值,并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;计算第一相似度评分与第二相似度评分中的最大值,并将该最大值设置为第一地址文本与第二地址文本的文本相似度评分。
技术领域
本申请涉及计算机应用领域,尤其涉及一种地址文本的相似度计算方法及装置。
背景技术
在相关技术中,地址的相似度计算,在很多场景都会用到。比如,在金融领域的业务申请过程中,需要把该用户输入的地址和系统中存储的历史上使用过的地址做匹配,来进行相似度计算,进而通过相似度计算的结果来验证该用户提交的地址是否曾经使用过。
然而,在实际应用中,用户输入的地址通常具有多样性,不同的人在表达同一地址时可能存在各种不同的方式;因此,如何有效的屏蔽同一地址所存在的各种不同的表达方式对地址相似度计算结果的影响,来提升地址相似度计算结果的准确度,则具有十分重要的意义。
发明内容
本申请提出一种地址文本的相似度计算方法,所述方法包括:
针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;
依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;
依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;
计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。
本申请还提出一种地址文本的相似度计算装置,所述装置包括:
解析模块,针对第一地址文本以及第二地址文本分别进行地址结构解析,以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段;
第一计算模块,依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度,并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分;
第二计算模块,依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值,并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分;
设置模块,计算所述第一相似度评分与所述第二相似度评分中的最大值,并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710303312.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于少量目标字体的汉字字体转换生成的方法
- 下一篇:表单的校验方法及装置