[发明专利]一种基于标签分级的资讯召回排序方法、装置和设备在审

申请号：	202111523770.0	申请日：	2021-12-14
公开（公告）号：	CN114201652A	公开（公告）日：	2022-03-18
发明（设计）人：	吴晨	申请（专利权）人：	宁波深擎信息科技有限公司;上海深擎信息科技有限公司
主分类号：	G06F16/9038	分类号：	G06F16/9038
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	李杨
地址：	315000 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签分级资讯召回排序方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种基于标签分级的资讯召回排序方法、装置和计算机设备。所述方法包括：通过对用户画像标签进行分级，分为主体标签和辅助标签，再对资讯进行处理，提取带有权重信息的资讯画像标签，在资讯召回阶段，根据用户画像主体标签和资讯画像标签从原始资讯中获取候选资讯集；在资讯排序阶段，根据用户画像主体标签、用户画像辅助标签和资讯画像标签，得到用户与候选资讯集中每条资讯的相关度值，根据相关度值对候选资讯集中的资讯进行排序。本发明在召回阶段只对主体标签相关的资讯进行召回，提高召回的标准，降低了误召回率，在排序阶段，将用户画像的主体标签和辅助标签纳入考量，能将击中联合标签的资讯优先排序，提高了排序的准确性。

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于标签分级的资讯召回排序方法、装置和计算机设备。

背景技术

资讯推荐系统能为用户推荐其感兴趣的资讯集合，分为召回和排序两个部分。召回是根据用户兴趣获取候选资讯集，排序是将候选资讯集中的资讯按照用户可能的感兴趣程度进行排序。现有技术中，通常是根据用户兴趣标签，将与用户兴趣标签相关的资讯全部推送给用户，误召回率较高；另外，资讯的排序通常是根据资讯本身的阅读量等因素进行排序，与用户兴趣关联性弱，存在排序准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低误召回率，提高排序准确性的基于标签分级的资讯召回排序方法、装置、计算机设备和存储介质。

一种基于标签分级的资讯召回排序方法，所述方法包括：

获取预设时间段内的用户行为日志数据，根据所述用户行为日志数据得到用户画像标签，将所述用户画像标签输入到预先训练好的逻辑回归模型中，得到用户画像分级标签；所述用户画像分级标签包括用户画像主体标签和用户画像辅助标签；所述用户画像辅助标签为所述用户画像分级标签中非资讯主体的标签；所述用户画像主体标签为所述用户画像分级标签中的其他标签；

获取原始资讯，从所述原始资讯中提取带有权重信息的资讯画像标签；

在资讯召回阶段，根据所述用户画像主体标签和所述资讯画像标签从所述原始资讯中获取候选资讯集；

在资讯排序阶段，根据所述用户画像主体标签、所述用户画像辅助标签和所述资讯画像标签，得到用户与所述候选资讯集中每条资讯的相关度值，根据所述相关度值对所述候选资讯集中的资讯进行排序。

在其中一个实施例中，还包括：获取原始资讯；

通过Hanlp算法对所述原始资讯进行分词得到资讯标签；

通过TextRank算法对分词后的资讯进行处理，得到所述资讯标签的权重信息；

根据所述资讯标签和所述资讯标签的权重信息得到带有权重信息的资讯画像标签。

在其中一个实施例中，还包括：在资讯排序阶段，分别获取所述用户画像主体标签的权重和所述用户画像辅助标签的权重；

获取所述资讯画像标签的权重；

根据所述用户画像主体标签的权重、所述用户画像辅助标签的权重和所述资讯画像标签的权重，得到用户与所述候选资讯集中每条资讯的相关度值为：

其中，R_user,news为用户与候选资讯集中每条资讯的相关度值，为用户画像主体标签或用户画像辅助标签的权重，为资讯画像标签的权重，O为用户与资讯交集标签数量，N为资讯画像标签总数量。

在其中一个实施例中，还包括：根据所述相关度值对所述候选资讯集中的资讯进行排序，对相关度值高的资讯优先推送给所述用户。