[发明专利]一种基于多层次特征交互的点击率预测方法及装置在审
| 申请号: | 202111370164.X | 申请日: | 2021-11-18 |
| 公开(公告)号: | CN114154565A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 王粉花;郑嘉伟;严由齐;林超 | 申请(专利权)人: | 北京科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多层次 特征 交互 点击率 预测 方法 装置 | ||
1.一种基于多层次特征交互的点击率预测方法,其特征在于,包括:
采集用户的特征数据和历史行为信息,构建训练数据集;
在xDeepFM模型的特征嵌入层与全连接层之间加入二阶特征交互层,以对xDeepFM模型进行改进,并将改进后的xDeepFM模型作为点击率预测模型;
采用所述训练数据集对所述点击率预测模型进行训练;
利用训练好的点击率预测模型对待预测的点击率进行预测,得到预测结果。
2.如权利要求1所述的基于多层次特征交互的点击率预测方法,其特征在于,所述采集用户的特征数据和历史行为信息,构建训练数据集,包括:
采集用户的特征数据和历史行为信息;其中,所述特征数据包括:用户年龄、用户性别、用户使用的手机型号以及用户位置信息;所述历史行为信息包括:用户的浏览时长和用户是否点击广告;
对采集的特征数据和历史行为信息进行预处理,分别提取连续特征和分类特征,并将连续特征置于分类特征之前,以构建训练数据集。
3.如权利要求1所述的基于多层次特征交互的点击率预测方法,其特征在于,所述点击率预测模型包括特征嵌入层、压缩交互网络、二阶特征交互层、全连接层以及预测层;其中,
所述特征嵌入层用于将高维稀疏特征向量转换为低维稠密特征向量,并将转换出的特征向量输入所述压缩交互网络和所述二阶特征交互层;
所述二阶特征交互层用于将n个域中的向量两两对位相乘,得到n*(n-1)/2个向量,并将这些向量相加得到一个低维的特征向量ye,计算方式如下:
其中,表示两个向量的元素积,ei表示第i个域的嵌入向量,ej表示第j个域的嵌入向量,vi表示第i个域的权重,vj表示第j个域的权重;
所述二阶特征交互层将得到的特征向量输入所述全连接层,学习高阶特征交互,计算方式如下:
其中,l是隐藏层的编号,是非线性激活函数,是第l层隐藏层的输出向量,表示第l-1层隐藏层的输出向量,W(l)表示第l层隐藏层的权重矩阵,b(l)表示第l层隐藏层的偏置量;
所述预测层将线性回归、所述压缩交互网络和所述全连接层集成到一个框架,计算方法如下:
其中,表示所述预测层的输出,σ是Sigmoid函数,x表示没有经过所述特征嵌入层处理的原始特征值,ydnn,ycin分别是所述全连接层和所述压缩交互网络的输出值,Wlinear,Wdnn和Wcin分别是线性回归、所述全连接层和所述压缩交互网络的参数模型,bdnn和b分别是所述全连接层和所述预测层的偏置参数。
4.如权利要求1所述的基于多层次特征交互的点击率预测方法,其特征在于,所述基于多层次特征交互的点击率预测方法还包括:
在所述点击率预测模型的独热编码过程引入最大支持维度参数M,防止维度爆炸现象;其中,原始数据与出现频数的字典映射关系如下:
P[xi]=Ni,i∈{1,2,...,K}
其中,xi是第i个不同的哈希值,Ni为xi对应的频数,K是哈希值的总数;如果K≤M,那么只需将xi对应的索引在独热编码中取值为1,如果K>M,则需要对频数Ni进行二次编码,创建一个新的映射表,直到维度小于M;P[xi]表示第i个特征出现的频数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111370164.X/1.html,转载请声明来源钻瓜专利网。





