[发明专利]点击率预估模型的建立方法及系统有效
| 申请号: | 201910646899.7 | 申请日: | 2019-07-17 |
| 公开(公告)号: | CN110362774B | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 程威宇;沈艳艳;黄林鹏 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F16/958 | 分类号: | G06F16/958;G06N3/04;G06N3/08 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 庄文莉 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 点击率 预估 模型 建立 方法 系统 | ||
本发明提供了一种点击率预估模型的建立方法及系统,包括:历史数据提取步骤:从历史点击数据中提取基础特征;特征向量构建步骤:将基础特征中的类别型特征和数值型特征分别构建同一维度的特征向量表示,作为模型训练输入;模型建立步骤:建立基于对数变换层和多层全连接神经网络的点击率预估模型;模型优化步骤:通过训练数据对点击率预估模型进行优化,得到最优的模型参数。本发明能够通过模型训练得到自动学习到有效的显式交叉特征,相比现有方法具有较好的可解释性,较少的模型参数和较高的模型预测性能。
技术领域
本发明涉及网络技术领域,具体地,涉及点击率预估模型的建立方法及系统。
背景技术
随着互联网的快速发展,越来越多的用户通过互联网获取所需的信息。例如,通过搜索引擎搜索解决方案,通过电子商务网站购买所需用品,通过新闻媒体网站获取所需的资讯等。由于大数据时代下的信息过载,无论哪种应用,都需要根据用户的查询或用户的行为日志为其推荐所需的信息或投放广告。由于展示给用户的页面空间有限,通常后台服务器需要根据用户信息对候选信息进行点击率预估,并将预估点击率最高的若干项候选信息返回给对应用户。
公开号CN105678335B的专利公开了一种预估点击率的方法、装置及计算设备。其中预估点击率的方法包括如下步骤。获取推荐模型中多个特征项的参数。其中,多个特征项中每一个用于标识用户特征、页面特征和推荐信息特征中一个。推荐信息适于呈现在页面中。用户特征为用户对推荐信息的兴趣度排序值。在用户请求页面时,获取该用户对多个备选推荐信息的兴趣度排序值以及页面特征。根据所获取的兴趣度排序值对应的特征项和页面特征对应的特征项,利用推荐模型对每个备选的推荐信息的点击率进行预估。
传统的点击率预估模型通常基于人工分析并提取的特征进行建模,近年来也有多种基于深度神经网络的点击率预估模型被提出,以减轻对人工特征建模的依赖。然而,现有方法使用深度神经网络时只能对输入原始特征进行隐式的交互建模,而无法建立显式的交叉特征,其主要缺陷在于得到的模型往往参数量很大且难以解释。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种点击率预估模型的建立方法及系统。
根据本发明提供的一种点击率预估模型的建立方法,包括:
历史数据提取步骤:从历史点击数据中提取基础特征;
特征向量构建步骤:将基础特征中的类别型特征和数值型特征分别构建同一维度的特征向量表示,作为模型训练输入;
模型建立步骤:建立基于对数变换层和多层全连接神经网络的点击率预估模型;
模型优化步骤:通过训练数据对点击率预估模型进行优化,得到最优的模型参数。
优选地,所述历史数据提取步骤包括:
从历史点击数据中提取基础特征,对基础特征进行预处理,所述预处理包括提取用户和展示信息的基础特征以及记录用户是否点击的信息,对基础特征中的缺失值进行填充,并对数值型特征做归一化处理。
优选地,所述特征向量构建步骤包括:
对基础特征中的每项类别型特征分别构建一个预定义维度的第一特征向量表示,第一特征向量的值随机初始化;
对基础特征中的每项数值型特征分别构建一个同一维度的第二特征向量表示,第二特征向量的值随机初始化后乘以归一化的特征数值作为最终向量值。
优选地,所述模型建立步骤包括:
对输入的所有特征向量进行对数变换,得到变换后的特征向量;
对于对数变换后的特征向量通过权值矩阵进行多组的向量加权求和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910646899.7/2.html,转载请声明来源钻瓜专利网。





