[发明专利]一种识别相同房源的方法及装置在审
申请号: | 201810570338.9 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108763570A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 周福涛;卢喜亮 | 申请(专利权)人: | 北京拓世寰宇网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100081 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片集合 图片 网站 关联 房源信息 关联图片 相似程度 预设条件 去重 预设 | ||
本发明公开了一种识别相同房源的方法及装置,包括:获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,第一图片集合包括与第一房源相关联的图片,第二图片集合包括与第二房源相关联的图片,然后,可以确定该第一图片集合中相似图片的数量,每张相似图片的特征值与第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,如果相似图片的数量大于预设的第一阈值,则可以确定第一房源与第二房源为相同房源。可见,通过确定出两个房源的关联图片中相似图片数量,可以判断出两个房源是否相同,这样可以在房源网站上对房源进行去重,从而使得房源网站中不存在具有相同房源信息的房源,进而提高了用户的使用体验。
技术领域
本发明涉及识别技术领域,特别是涉及一种识别相同房源的方法及装置。
背景技术
目前,越来越多的用户选择在房源网站上搜索自己需要购买或者租赁的房源。而房产经纪人(以下简称为经纪人)为了加大宣传其已掌握的房源,经常在房源网站上发布大量的房源信息,并且,不同的经纪人可能会该房源网站上发布同一房源的房源信息,甚至同一经纪人也可能会在该房源网站上多次发布同一房源的房源信息。这样,在用户搜索房源信息时,房源网站向用户呈现的搜索结果中可能会包含大量具有相同房源信息的房源,从而降低了用户在该房源网站上搜索房源的使用体验。
发明内容
本发明解决的技术问题在于提供一种识别相同房源的方法及装置,以去重房源网站上具有相同房源信息的房源,从而提高了用户在房源网站上搜索房源的使用体验。
为此,第一方面,本发明实施例提供了一种识别相同房源的方法,该方法包括:
获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,所述第一图片集合包括与第一房源相关联的图片,所述第二图片集合包括与第二房源相关联的图片;
确定所述第一图片集合中相似图片的数量,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件;
若所述相似图片的数量大于预设的第一阈值,则确定所述第一房源与所述第二房源为相同房源。
在一些可能的实施方式中,所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的相似程度达到预设条件,包括:
所述相似图片的特征值与所述第二图片集合中至少一张图片的特征值之间的海明距离小于预设的第二阈值。
在一些可能的实施方式中,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
根据所述第一图片集合中每张图片的网址,下载所述网址对应的图片;
计算得到所述第一图片集合中已下载图片的特征值;
从房源信息库中读取所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述方法还包括:
当所述第一房源与所述第二房源不为相同房源时,则将所述第一图片集合中每张图片的特征值添加至所述房源信息库中。
在一些可能的实施方式中,所述获取第一图片集合中每张图片的特征值以及第二图片集合中每张图片的特征值,包括:
从房源信息库中读取所述第一图片集合中每张图片的特征值,以及所述第二图片集合中每张图片的特征值。
在一些可能的实施方式中,所述方法还包括:
获取所述第一房源的标识;
根据所述标识,从房源信息库中确定出所述第二房源。
在一些可能的实施方式中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓世寰宇网络技术有限公司,未经北京拓世寰宇网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810570338.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本相似度计算方法及装置、智能机器人
- 下一篇:一种作业地图更新方法