[发明专利]社区推荐及模型训练方法、装置、电子设备及存储介质有效
申请号: | 202010073190.5 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111274497B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 陈亮辉;杨晓璇;付琰;彭炼钢 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社区 推荐 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种社区推荐方法,其特征在于,包括:
采集用户的标识和所述用户的社区关注列表中的各社区的标识,作为用户数据;所述社区包括网站中的版块或者应用中的分类标签;采集所述用户的社区关注列表中的各社区的标识的采集方式包括显式采集和隐式采集;所述显式采集指的是直接获取所述用户关注的社区的标识的采集方式;所述隐式采集指的是通过分析所述用户的行为信息,确定所述用户关注的社区的标识的采集方式;
利用预先训练好的特征预测模型和所述用户数据,生成所述用户的特征表达;
基于所述用户的特征表达和预先生成的社区列表的社区特征表达库,从所述社区列表中获取与所述用户的特征表达相似度最大的N个社区的标识;
向所述用户推荐所述N个社区的标识。
2.根据权利要求1所述的方法,其特征在于,基于所述用户的特征表达和预先生成的社区列表的社区特征表达库,从所述社区列表中获取与所述用户的特征表达相似度最大的N个社区的标识,包括:
从所述社区列表的社区特征表达库中获取与所述用户的特征表达相似度最大的N个社区的特征表达;
从所述社区列表中获取所述N个社区的特征表达对应的标识。
3.根据权利要求1或2所述的方法,其特征在于,基于所述用户的特征表达和预先生成的社区列表的社区特征表达库,从所述社区列表中获取与所述用户的特征表达相似度最大的N个社区的标识之前,所述方法包括:
采用预先训练好的特征表达模型,基于所述社区列表中各所述社区的标识,生成对应的社区特征表达;
基于所述社区列表中各所述社区的社区特征表达,构建所述社区特征表达库。
4.一种特征预测模型的训练方法,其特征在于,包括:
采集数条训练数据,各所述训练数据中包括训练用户的标识和所述训练用户的社区关注子列表中的各社区标识;
对于各所述训练数据,从所述社区关注子列表选择一个社区标识,作为标注数据;将所述训练用户的标识和所述社区关注子列表中其余的社区标识,作为输入数据;
采用各所述训练数据中的所述输入数据和所述标注数据,对特征预测模型进行训练;
采用各所述训练数据中的所述输入数据和所述标注数据,对特征预测模型进行训练,包括:
对于各所述训练数据,在所述特征预测模型的输入层,输入对应的所述输入数据;
在所述特征预测模型的嵌入层,采用预先训练好的特征表达模型将所述输入数据中的所述训练用户的标识和各所述社区标识分别进行特征表达处理,得到对应的特征表达;
在所述特征预测模型的操作层中,采用特征表达平均的方法,将所述输入数据中的所述训练用户的标识的特征表达和各所述社区标识对应特征表达进行操作,输出预测特征表达,作为预测的所述标注数据中的所述社区标识的特征表达。
5.根据权利要求4所述的方法,其特征在于,采集数条训练数据,包括:
挖掘各所述训练用户的标识和社区关注列表;
对于各所述训练用户的社区关注列表,按照移动滑动窗口的方式,依次从所述社区关注列表中截取预设数量的社区标识,构成社区关注子列表;并将对应的所述训练用户的标识和和所述社区关注子列表构成一条所述训练数据,共得到数条所述训练数据。
6.根据权利要求4或5所述的方法,其特征在于,采用各所述训练数据中的所述输入数据和所述标注数据,对特征预测模型进行训练,还包括:
基于所述特征表达模型,获取所述标注数据中的所述社区标识对应的标注特征表达;
基于所述预测特征表达和标注特征表达,构建损失函数;
判断所述损失函数是否收敛;
若未收敛,调整所述特征预测模型中的参数,使得所述损失函数趋于收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010073190.5/1.html,转载请声明来源钻瓜专利网。