[发明专利]信息召回、信息聚类方法、装置及设备在审
申请号: | 201910044328.6 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109740063A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 马国伟 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类簇 聚类信息 装置及设备 历史信息 信息聚类 预设 信息获得 用户点击 用户需要 聚类 应用 | ||
本发明实施例提供了一种信息召回、信息聚类方法、装置及设备,该方法包括:确定需要进行信息召回的用户点击过的历史信息;针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;在已有信息类簇中选取第一预设数量个信息类簇;将第一预设数量个已有信息类簇中包含的信息作为针对用户需要召回的信息。应用本发明实施例提供的方案召回信息时,能够提高信息召回的效率。
技术领域
本发明涉及计算机技术领域,特别是涉及信息召回、信息聚类方法、装置及设备。
背景技术
信息召回是指针对某一个用户获取该用户可能感兴趣的信息的过程。
信息召回过程中,为了有效获取用户可能感兴趣的信息,通常会收集用户的性别、年龄、职业、爱好等基本信息,根据用户的基本信息,通过遍历信息库中存储的信息的方式,筛选出用户可能感兴趣的信息,进而实现信息召回。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
由于信息库中所存储信息的信息量一般非常大,且遍历并筛选信息的效率又较低,因此,应用上述方式确定用户可能感兴趣信息的效率较低,进而易导致信息召回的效率低。
发明内容
本发明实施例的目的在于提供一种信息召回、信息聚类方法、装置及设备,以实现提高信息召回的效率。具体技术方案如下:
本发明实施的一方面,提供了一种信息召回方法,所述方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
可选的,所述方法还包括:
利用以下方式获得各个已有信息类簇:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
可选的,在所述根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述根据计算得到的相似度和每一待聚类信息的特征信息,对待聚类信息进行聚类得到信息类簇的步骤,包括:
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910044328.6/2.html,转载请声明来源钻瓜专利网。