[发明专利]一种地址标准化方法及装置在审
| 申请号: | 202110837245.X | 申请日: | 2021-07-23 |
| 公开(公告)号: | CN113468881A | 公开(公告)日: | 2021-10-01 |
| 发明(设计)人: | 徐阳;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06F40/30;G06K9/62 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 潘平 |
| 地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 地址 标准化 方法 装置 | ||
本发明实施例提供了一种地址标准化方法及装置,该方法包括获取待处理地址数据,通过地址向量化模型对待处理地址数据进行处理,确定出待处理地址数据的语义特征向量,将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词,对各子地址分词进行词性标注,得到标准化的地址数据。如此,该方案无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种地址标准化方法及装置。
背景技术
随着信息化技术的快速发展,地址数据作为用户的重要信息逐渐被广泛应用。但是,目前的大量地址数据中还存在相当一部分地址数据为非标准化的信息,而这部分非标准化的地址数据会给基于地址数据进行进一步分析处理的应用场景带来极大地不便。因此,为了确保地址数据的规范性、精确性,需要对非标准化的地址数据进行标准化处理。
现有方案通常基于地址词典来实现地址数据的标准化处理。具体地,通过地址词典中的地址分段触发词对待处理地址数据进行匹配分割,得到不同级别的地址段,并对不同级别的地址段进行标准化处理。然而,这种处理方式虽然在一定程度上提高了地址标准化处理的准确性,但是由于依赖地址词典的覆盖面,因此在待处理地址数据中存在新出现的地址段时就会无法通过现有地址词典来实现针对待处理地址数据进行准确地匹配分割,从而导致待处理地址数据的标准化处理效率低。
综上,目前亟需一种地址标准化方法,用以有效地提高地址数据标准化处理的效率。
发明内容
本发明实施例提供了一种地址标准化方法及装置,用以有效地提高地址数据标准化处理的效率。
第一方面,本发明实施例提供了一种地址标准化方法,包括:
获取待处理地址数据;
通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;
将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;
对所述各子地址分词进行词性标注,得到标准化的地址数据。
上述技术方案中,由于现有技术中的技术方案通过基于地址词典来实现对待处理地址数据的匹配分割,以便后续基于分割出的各级别的地址段进行标准化处理,因此,现有技术中的技术方案一方面存在匹配分割时所消耗的时间成本大,另一方面在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割。基于此,本发明中的技术方案通过地址向量化模型对待处理地址数据进行处理,可以更及时精确地得到待处理地址数据的语义特征向量,如此在将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理时,就能够更加及时准确地得到各子地址分词,而无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。然后,在对各子地址分词进行词性标注后,就可以及时有效地得到标准化的地址数据。
可选地,所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110837245.X/2.html,转载请声明来源钻瓜专利网。





