[发明专利]一种兴趣点POI的分类方法和装置在审
申请号: | 201811646098.2 | 申请日: | 2018-12-29 |
公开(公告)号: | CN111401389A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 刘卓;罗延根 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/279 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;赵美林 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兴趣 poi 分类 方法 装置 | ||
本发明公开了一种兴趣点POI的分类方法和装置,方法包括:获取待分类POI信息的POI名称,对所述POI名称进行分词处理得到与尾词相关的分词;将与尾词相关的分词作为特征输入到训练完成的分类模型中;根据所述分类模型的输出结果确定所述待分类POI信息的所属类别。围绕尾词来挖掘有效的特征,并完成POI的自动分类,可以覆盖大规模POI数据,保证整个地图系统的准确率和召回率。
技术领域
本发明涉及电子地图领域,具体涉及一种兴趣点POI的分类方法和装置。
背景技术
POI(Point of Interest,简称POI)通常包含名称、类别、坐标信息,全面的POI信息是丰富导航地图的必备,POI标注在电子地图上,带有经纬度信息,可用来查找并计算导航的地标点或者建筑物,例如商场、学校、公交车站、医院、酒店、公园等。POI是有类别的,POI的分类对检索和前端展示来说十分重要。一般而言,POI的原始类别来源于图商(具有导航电子地图资质的的电子地图服务商),但各个图商的类别体系不统一,且类别准确率低,难以满足实际需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的兴趣点POI的分类方法和装置。
依据本发明的一个方面,提供了一种兴趣点POI的分类方法,其中,包括:
获取待分类POI信息的POI名称,对所述POI名称进行分词处理得到与尾词相关的分词;
将与尾词相关的分词作为特征输入到训练完成的分类模型中;
根据所述分类模型的输出结果确定所述待分类POI信息的所属类别。
可选地,对所述POI名称进行分词处理得到与尾词相关的分词包括:
对所述POI名称进行分词处理得到多个分词结果,将各分词结果与分类尾词表中的数据进行匹配,得到与尾词相关的分词。
可选地,所述分类尾词表通过下列步骤得到:
对数据库中存储的POI信息进行挖掘,确定代表类别信息的尾词,将确定出的各尾词存储得到分类尾词表。
可选地,还包括:对尾词进行整理,将所述尾词的同义词添加到所述分类尾词表中。
可选地,所述分类模型为最大熵模型,该方法包括通过下列步骤训练得到最大熵模型:
选定一批包含类别信息的POI信息作为训练数据;
对于各训练数据进行分词处理得到与尾词相关的分词,将尾词相关的分词作为特征输入到最大熵模型中进行训练;
判断所述最大熵模型的准确率是否大于设定准确率阈值;
若是,则训练结束得到训练完成的最大熵模型;若否,则调整模型的特征及参数后继续训练。
可选地,该方法还包括:在选定得到训练数据之后对训练数据进行下列的一种或多种预处理:
归一化;
全半角转换;
分店识别。
可选地,根据所述分类模型的输出结果确定所述待分类POI信息的所属类别包括:
将所述分类模型的输出结果与预设分类规则相结合得到最终的分类结果。
根据本发明的另一个方面,提供了一种兴趣点POI的分类装置,包括:
分词单元,适于获取待分类POI信息的POI名称,对所述POI名称进行分词处理得到与尾词相关的分词;
特征确定单元,适于将与尾词相关的分词作为特征输入到训练完成的分类模型中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811646098.2/2.html,转载请声明来源钻瓜专利网。