[发明专利]一种地址的标签确定方法和装置有效
申请号: | 201811232165.6 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109379361B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 郦柏金;陈万源;谭炽烈 | 申请(专利权)人: | 同盾控股有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06Q30/06 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 标签 确定 方法 装置 | ||
1.一种地址的标签确定方法,其特征在于,所述方法包括:
根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签,所述第一标签包括相似地址标签,相同地址标签或者其他地址标签;以及
根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签,所述第二标签表征所述待标记地址信息属于黑地址;
当确定不对所述待标记地址信息标记所述第二标签时,利用预先确定的正则识别规则对所述待标记地址信息进行过滤,以确定是否对所述待标记地址信息标记所述正则识别规则对应的第三标签,所述第三标签是在电商平台上预先设置的相关正则识别规则对应的标签;
当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签,所述第四标签用于标记所述待标记地址信息中是否包含人名信息以及所述待标记地址信息是否属于正常地址、带有手机号码的地址以及带有暗号地址和带有特殊字符的地址;
根据所述第一标签与所述第二标签、所述第三标签以及所述第四标签三者中的一者,确定所述待标记地址信息的综合标签。
2.根据权利要求1所述的方法,其特征在于,所述根据缓存数据库中的地址数据信息,对获取到的待标记地址信息进行相似度比对,以确定所述待标记地址信息的第一标签,包括:
根据所述待标记地址信息,获取所述缓存数据库中对应的地址数据信息;
利用预设的文本相似度计算方法,确定所述待标记地址信息与所述对应的地址数据信息之间的相似度值;
根据所述相似度值,结合预设的相似度阈值,确定所述第一标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待标记地址信息,利用预设的黑样本库,以确定是否对所述待标记地址信息标记第二标签,包括:
通过对所述待标记地址信息的局部敏感哈希值和所述黑样本库中所有的黑样本信息的局部敏感哈希值进行的比对,确定在所述黑样本库中是否存在与所述待标记地址信息相似的黑样本;
当存在与所述待标记地址信息相似的黑样本时,对所述待标记地址信息标记所述第二标签;
当不存在与所述待标记地址信息相似的黑样本时,不对所述待标记地址信息标记所述第二标签。
4.根据权利要求1所述的方法,其特征在于,所述标签确定模型包括序列标注模型和文本分类模型;所述当确定不对所述待标记地址信息标记所述第三标签时,利用预先训练的标签确定模型,确定所述待标记地址信息的第四标签,包括:
当确定不对所述待标记地址信息标记所述第三标签时,对所述待标记地址信息进行预处理,所述预处理包括文本归一化处理、分词处理和停用词处理;
利用所述序列标注模型对预处理后的所述待标记地址信息进行人名识别,以确定第五标签;
利用所述文本分类模型对预处理后的所述待标记地址信息进行分类,以确定第六标签;
根据所述第五标签和所述第六标签,确定所述待标记地址信息的第四标签;
其中,所述第五标签用于标记所述待标记地址信息是否包含人名;所述第六标签包括正常地址标签、带有手机号码的地址标签以及带有暗号地址和带有特殊字符的地址标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾控股有限公司,未经同盾控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811232165.6/1.html,转载请声明来源钻瓜专利网。