[发明专利]用于POI的相似度计算的方法、装置、设备和计算机可读存储介质有效
申请号: | 201710922431.7 | 申请日: | 2017-09-30 |
公开(公告)号: | CN107609185B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 谢红伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;屈小春 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 poi 相似 计算 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明的实施方式涉及用于地图兴趣点POI的相似度计算的方法、装置、设备和计算机可读存储介质。所述方法包括:构建至少一条训练样本;对所构建的至少一条训练样本进行序列化处理,其中该序列化处理包括利用one‑hot编码用预设的one‑hot编码字典至少一条训练样本转换为序列;以及将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对LSTM神经网络模型进行训练。根据本发明的实施方式,利用LSTM的深度学习模型,构建了端到端的POI相似度计算模型,提升了POI相似度计算的准确性。
技术领域
本发明涉及利用计算机进行数据处理的技术领域。具体而言,涉及用于地图兴趣点POI的相似度计算的方法、装置、服务器和计算机可读存储介质。
背景技术
POI(Point of interest,兴趣点)是地理信息系统中收集的地理信息表现形式,可以是一栋建筑物、一个商家、一个邮筒或者一个公交站等。每个POI的属性信息一般包括名称和地址。对于用于地理信息系统中的POI的获取,主要包括人工确认(包括实地探访和电话确认等)和通过互联网抓取两种方式。
然而,在现实世界中,每天都有成千上万的数据发生着各种各样的变化,有的店铺因经营不善而关闭停业,有的店铺又如雨后春笋般地涌现出来。因此,人工方式获取POI信息的更新方式,已经不能满足大规模地理信息数据生产的需要。互联网上的POI数据是各种各样的,其中充斥着大量的脏数据、错误数据以及重复数据。
为了保证POI数据的准确性和单一性,需要对人工方式获得的(更新的)、以及对从互联网上挖掘出的POI数据进行进一步的处理。最常见的一项处理是分别计算POI数据的POI名称和POI地址的相似度,再根据相似度进行去重。
现有技术中,常见的处理方式是分别计算POI数据的POI名称和POI地址的相似度,再根据相似度进行去重。正如中国专利公开文献CN105224660A所认识到的,由于如POI名称的相似度、POI地址的相似度这样的POI短文本的相似度的计算实际上均是对字符串的比较过程,字符串的相似度的比较难度较高,尤其是包含汉字的字符串计算其相似度会涉及到自然语言处理,可实施性差、效率低,且准确率也难以保证。
发明内容
本发明实施方式提供一种用于地图兴趣点POI的相似度计算的方法、装置、设备和计算机可读存储介质,以至少解决现有技术中的以上技术问题。
在第一方面,本发明实施方式提供了一种用于地图兴趣点POI的相似度计算的方法。该方法可以包括:构建至少一条训练样本,所述一条训练样本中包括一对POI;对所构建的至少一条训练样本进行序列化处理,其中该序列化处理包括利用one-hot编码用预设的one-hot编码字典将所述至少一条训练样本转换为序列;以及将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练。
结合第一方面,本发明在第一方面的第一种实施方式中,所述训练样本可以采用正样本和/或负样本,所述训练样本还包括样本类型的标识。正样本可以包括经人工标注的样本和/或线上高准挂接的样本,负样本可以包括经人工标注的样本、父子关系样本、和/或检索返回的样本。
结合第一方面的第一种实施方式,在对所构建的至少一条训练样本进行序列化处理之前,所述方法还可以包括:对所述至少一条训练样本进行均衡化处理。
进一步地,所述均衡化处理采用过采样或欠采样。
结合第一方面,本发明在第一方面的第二实施方式中,可以采用预设的正样本和负样本的比例来构建所述至少一条训练样本。
在前述各种实施方式中,所述方法可以用于POI名称或POI地址的相似度的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710922431.7/2.html,转载请声明来源钻瓜专利网。