[发明专利]信息召回、信息聚类方法、装置及设备在审
申请号: | 201910044328.6 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109740063A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 马国伟 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类簇 聚类信息 装置及设备 历史信息 信息聚类 预设 信息获得 用户点击 用户需要 聚类 应用 | ||
1.一种信息召回方法,其特征在于,所述方法包括:
确定需要进行信息召回的用户点击过的历史信息;
针对每一已有信息类簇,将该已有信息类簇包含的信息与所确定的历史信息进行比较,确定该已有信息类簇包含的信息中具有相同信息的个数,其中,所述已有信息类簇为:根据每一待聚类信息的特征对待聚类信息进行聚类得到的信息类簇,所述每一待聚类信息的特征为:根据点击过该待聚类信息的用户的信息获得的特征;
在已有信息类簇中选取第一预设数量个信息类簇,其中,所选取的信息类簇中具有相同信息的个数均大于未选取的信息类簇中具有相同信息的个数;
将所述第一预设数量个信息类簇中包含的信息作为针对所述用户需要召回的信息。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
利用以下方式获得各个已有信息类簇:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
3.如权利要求1或2所述的方法,其特征在于,在所述根据所确定用户的信息获得该待聚类信息的特征的步骤之后,还包括:
从所获得的待聚类信息的特征中,随机选取第二预设数量个特征作为聚类中心;
所述根据计算得到的相似度和每一待聚类信息的特征信息,对待聚类信息进行聚类,得到信息类簇的步骤,包括:
针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中;
针对每一个信息类簇,根据该信息类簇中包含的待聚类信息的特征,计算该信息类簇的平均特征,在计算得到的平均特征与该信息类簇的聚类中心不同的情况下,将该信息类簇的聚类中心更新为计算得到的平均特征;并返回所述针对每一待聚类信息,根据计算得到的相似度,确定该待聚类信息与任一所述聚类中心之间的相似度,并根据所确定的相似度判断该待聚类信息是否属于该聚类中心对应的信息类簇;若该待聚类用户属于该聚类中心对应的信息类簇,则将该待聚类信息添加到该聚类中心对应的信息类簇中的步骤,直至每一信息类簇的聚类中心与该信息类簇的平均特征均相同时,将此时得到的信息类簇作为聚类结果。
4.如权利要求1或2所述的方法,其特征在于,所述根据每一待聚类信息的特征信息,计算每两个待聚类信息之间的相似度的步骤,包括:
利用以下表达式分别计算每两个待聚类信息之间的相似系数,并根据计算得到的相似系数,确定所述两个待聚类信息之间的相似度:
其中,s(j,k)表示待聚类信息j与待聚类信息k之间的相似系数,U.j表示待聚类信息j的特征向量,U.k表示待聚类信息k的特征向量,|U.j&U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的交集,|U.j|U.k|表示待聚类信息j的特征向量和待聚类信息k的特征向量的并集。
5.一种信息聚类方法,其特征在于,所述方法包括:
针对每一待聚类信息,确定点击过该待聚类信息的用户,并根据所确定用户的信息获得该待聚类信息的特征;
根据待聚类信息的特征,计算每两个待聚类信息之间的相似度;
根据计算得到的相似度和每一待聚类信息的特征,对待聚类信息进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910044328.6/1.html,转载请声明来源钻瓜专利网。