[发明专利]一种基于模型融合的CTR预估方法在审
申请号: | 201711208968.3 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107743249A | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 牛文臣;刘鑫;于跃 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | H04N21/25 | 分类号: | H04N21/25;H04N21/258;G06F17/30;G06Q30/06 |
代理公司: | 成都虹桥专利事务所(普通合伙)51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 融合 ctr 预估 方法 | ||
技术领域
本发明属于大数据技术领域,具体涉及一种基于模型融合的CTR(点击率)预估方法。
背景技术
随着电子商务的兴起,电子商务网站的极速发展,物品的多样化导致很多用户在浏览网站时无法评估潜在的大量可供选择的物品,无法快速的选择自己有购买愿望的物品。用户迫切的需要一种能过滤出所有可用的替代品的推荐系统,以快速定位需要购买的物品;商家也需要一种推荐系统能快速的帮助用户定位物品,提高用户满意度并产生经济效益。
推荐系统(Recommend System)是一种软件工具和技术方法,可以向用户建议有用的物品,这种建议适用于多种决策过程,如购买什么物品、听什么音乐、看什么电视节目、在网上浏览什么新闻等。“物品”是用来表示系统向用户推荐内容的总称,一个推荐系统通常专注于一个特定类型的物品(如CD或新闻),因此它的设计、图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的。各个行业的推荐系统在整体架构上均保持一致,在具体实现上有不同表现。
目前推荐系统中存在多个维度的推荐算法,有基于用户的协同过滤推荐算法,基于物品的协同过滤推荐算法,基于邻域的推荐算法等;多种算法在用户,物品,物品内容等多个维度进行推荐算法的应用。但单一的算法必将不适合复杂的业务场景,也无法通过一个算法涵盖整个场景的需求。
发明内容
本发明所要解决的技术问题是:提出一种基于模型融合的CTR预估方法,解决传统技术中采用单一推荐算法不能满足复杂业务场景需求的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于模型融合的CTR预估方法,包括以下步骤:
a.获取用户历史观看节目信息,生成模型训练样本集;
b.应用多种不同推荐算法生成多个推荐列表;
c.应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目的评分;
d.对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
作为进一步优化,步骤a中,利用用户历史观看节目信息生成模型训练所需的正负样本,构建数据字典,将标称数据转换为数值数据进行模型训练。
作为进一步优化,步骤b中,所述多种不同推荐算法包括:基于邻域推荐算法、基于物品相似度推荐算法、基于用户协同过滤推荐算法。
作为进一步优化,步骤c中,所述应用GBDT+LR模型进行特征选择和回归模型训练,具体包括:采用GBDT算法对节目数据进行特征抽取,获取主要特征;采用LR算法生成逻辑回归模型,生成节目的特征权重值,然后应用LR乘法模型结合特征权重值计算节目的评分值。
作为进一步优化,步骤c中,在进行回归模型训练时,去除一些权重很小的特征,保留有效的视频节目特征权重。
本发明的有益效果是:对推荐系统中各种推荐算法生成的推荐节目列表进行综合排序,为多种推荐算法提供一个非常好的结果融合,提高用户点击率,提高经济效益转化率;此外,本发明实现简便,可行性强,不仅适用电视视频推荐系统,在很多电商行业均适用,具有很高的拓展性和实用性。
附图说明
图1为本发明中的基于模型融合的CTR预估方法流程图。
具体实施方式
本发明旨在提出一种基于模型融合的CTR预估方法,解决传统技术采用单一推荐算法无法满足复杂场景需求的问题;在本发明中,获取用户历史观看节目信息,生成模型训练样本集,应用基于邻域推荐算法和基于物品相似度等多种推荐算法生成不同的推荐列表,应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,获取推荐节目评分,对推荐节目组合排序,提高推荐系统的推荐效果,提高用户的满意度和依赖性。
如图1所示,本发明中的基于模型融合的CTR预估方法包括以下实现步骤:
1、获取用户历史观看节目信息,生成模型训练样本集;
2、应用多种不同推荐算法生成多个推荐列表;
3、应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目评分;
4、对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
在具体实现上,生成训练样本集的方式为:
首先获取click数据和dfeedback数据,然后给数据进行正负样本标记,最后结合数据字典生成训练数值型样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711208968.3/2.html,转载请声明来源钻瓜专利网。