[发明专利]经纪人的识别方法及装置、电子设备和可读存储介质在审
申请号: | 201711478995.2 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108304482A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 黄海;吴向中;王祝兵 | 申请(专利权)人: | 北京城市网邻信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋扬;刘芳 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社区发现 实体信息 用户关系 日志 可读存储介质 电子设备 网络 集合 关联关系 结果识别 社区标识 用户标识 预设规则 准确率 发帖 构建 算法 预设 发布 | ||
本发明实施例提供一种经纪人的识别方法及装置、电子设备和可读存储介质。该方法包括:获取在预设时间内的用户发帖日志和每一个日志的实体信息,根据所有日志的实体信息构建用户关系网络,用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为用户关系网络中每一个顶点的社区标识;根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。从而提高了识别准确率和识别效率。
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种经纪人的识别方法及装置、电子设备和可读存储介质。
背景技术
现如今,房屋出租信息、二手房信息和二手车信息等被发布在各类网页或相关应用程序(APP)上,房屋出租信息或二手房信息等可以是私人发布的,也可以是经纪人(即中介)发布的。
以房屋出租信息为例,如何从发布的房屋出租信息中识别出该房屋出租信息的发布用户是经纪人,现有的一种经纪人的识别方法是:若一用户发布房源数量大于预设阈值且该用户在超过N个区域发布房屋出租信息,N为预设值,则判定该用户是经纪人。然而,在用户发布房屋出租信息时需要用户填写用户身份,会有一部分私人用户随机填写身份导致信息不准确,也有一部分经纪人故意隐瞒经纪人身份以吸引流量。
因此,根据上述识别方法会漏掉一部分使用多个账户发布房源的经纪人,同时,由于房源分布区域的设定值N难以合理设定,使得对于经纪人的识别准确性不高。
发明内容
本发明实施例提供一种经纪人的识别方法及装置、电子设备和可读存储介质,以提高经纪人识别的准确性。
第一方面,本发明实施例提供一种经纪人的识别方法,包括:
获取在预设时间内的用户发帖日志和每一个日志的实体信息;
根据所有日志的实体信息构建用户关系网络,所述用户关系网络由顶点表和边表构成,顶点表为顶点的集合,边表为边的集合,每一实体信息为一顶点,边为用户标识与其它实体信息之间的关联关系;
使用社区发现算法对用户关系网络进行划分,得到社区发现结果,社区发现结果为所述用户关系网络中每一个顶点的社区标识;
根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人。
可选的,所述根据所有日志的实体信息构建用户关系网络,包括:
根据所有日志的实体信息确定出顶点表和边表,将顶点表和边表存入HDFS;
以顶点表和边表作为输入,通过Spark GraphX构建用户关系网络,并把用户关系网络以图的形式加载到内存中。
可选的,所述使用社区发现算法对用户关系网络进行划分,得到社区发现结果,包括:
以所述用户关系网络作为输入,在Spark GraphX上运行社区发现算法,得到社区发现结果。
可选的,所述根据预设规则和社区发现结果识别出所有日志的发布用户中的经纪人,包括:
根据社区发现结果确定出满足预设条件的目标社区;
若所述目标社区中发布房产信息的用户数目大于N,则判定所述目标社区中发布房产信息的用户为经纪人,N为预设正整数。
可选的,所述确定出满足预设条件的目标社区,包括:
统计属于同一社区的用户数目,每一个用户有一个社区标识,社区标识相同的用户属于同一社区;
确定属于同一社区的用户数目大于第一预设阈值的社区为所述目标社区;
或者,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京城市网邻信息技术有限公司,未经北京城市网邻信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711478995.2/2.html,转载请声明来源钻瓜专利网。