[发明专利]一种基于点击日志的新广告点击率预测方法及系统无效
申请号: | 201310267813.2 | 申请日: | 2013-06-28 |
公开(公告)号: | CN103310003A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 伍顺敏;纪文迪;王晓玲;何晓丰;周傲英 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 点击 日志 广告 点击率 预测 方法 系统 | ||
技术领域
本发明涉及信息检索和机器学习技术领域,具体地说是一种基于点击日志的新广告点击率预测方法及系统。
背景技术
互联网的快速发展,给人们带来了爆炸式的信息,每天人们在互联网上的点击行为都会带来许多点击日志,这些点击日志包含许多有用的特征可用来预测点击率,但是传统的方法包含了太多人工,从中挖掘出有用的信息代价很大。
对于搜索引擎和一些互联网广告投放公司来说,能按照用户提交的查询检索出匹配的信息文档和适合的广告并不是最重要的,更重要的是如何将这些查询结果以一种更优化的顺序呈现给用户。因为用户总是偏向于点击最靠前的结果,对于广告更是如此。对广告来说,一种盛行的付费模式,按用户点击次数付费给投放网站使得点击率在文档排序中成为一个重要的因素。
影响用户点击一个广告或是文档的因素有很多,用户自身的喜好和查询意图是关键因素,如果用户提交了一次较模糊的查询,搜索引擎并不能理解用户的查询意图,此时搜索引擎会根据一些传统方法,如GOOGLE会利用其PageRank算法对网页进行打分,标志其重要性,但这种做法却没有考虑到单用户的需要。而点击率是标志着用户喜好的一个特性,在排序时将其考虑进去会得到更优的结果。
然而对于那些没有历史数据的新广告,由于没有投放数据反馈并且获得市场反响的需要一定周期,一开始往往对其不能精准的投放,会造成用户流失。
发明内容
本发明的目的是为解决上述技术问题而提供的一种基于点击日志的新广告点击率预测方法及系统,该方法大大减少了人工在处理点击日志时所发挥的作用,使得人工代价可以用在更为专业的领域内;同时也大大提高了计算点击率的精确性,并且其适用于预测无历史数据的新广告的潜在点击率,使得新广告在缺乏市场回馈的时候能获得更精准的投放,以便获得更好的收益。
实现本发明目的的具体技术方案是:
一种基于点击日志的新广告点击率预测方法,它包括以下步骤:
特征抽取步骤,通过对点击日志进行自动分析,抽取出有意义的特征后对其生成待用数据文件,通过所述数据文件将点击日志转化为可用于训练的结构化文档;
模型训练步骤,用逻辑回归对所述结构化文档进行机器学习,得到预测模型;
点击率预测步骤,根据候选待预测广告是否为新广告,如果是新广告则通过聚类找到与其相似性最高的一组广告,并将新的特征值设定为这组广告特征的平均值;否则即用训练数据对其进行特征抽取。
所述特征抽取步骤具体包括:
a)根据点击日志数据量大小,去除总曝光次数小于某一阀值的广告记录;
b)针对每一个点击日志中的特征,生成针对每个特征值平均点击率的数据文件;
c)对于每一条广告记录,将其全部特征值替代为所述数据文件中相对应的平均点击率,得到待训练的结构化文档。
所述点击率预测步骤具体包括:
a)判断当前广告记录是否存在历史数据,即判断其是否为新广告;
b)如果广告存在历史数据,则在所述数据文件中查找对应特征值的平均点击率,用其替换原本特征值,而后代入预测模型进行预测;
c)若广告不存在历史数据,则用聚类的方法找出历史数据中与其最相近的一类广告,以此类广告特征的平均点击率作为其特征值。
所述数据文件是以每个特征为单位,记录此特征每个特征值和其平均点击率的结构化文档。
所述数据文件的生成步骤具体包括:
a)对点击日志包含的特征,计算其包含的特征值的平均点击率;
b)判断此特征辨别度是否大于阀值;
c)对于辨别度不够大的特征,用合并算法将特征值合并;
d)重复上述步骤b)和步骤c),直至此特征的辨别度大于阀值,生成数据文件。
所述数据文件生成步骤b)中的辨别度为:
定义D来区分一个特征是否具有辨别度,对于某一特征f,其辨别度D的定义如下式:
式中,N表示特征f具有的特征值的数量,F表示每个特征值的平均点击率,并按降序排列。
所述数据文件生成步骤c)的合并算法具体包括:
a)按曝光次数降序排列特征值;
b)将曝光次数最小的特征值与其曝光次数最接近的特征值合并;
c)更新两者的平均点击率。
所述聚类方法是根据新广告的文本属性特征,采用TF-IDF方法描述新广告与历史数据中广告的相似性,并以此为基础进行聚类。
一种基于点击日志的新广告点击率预测系统,该系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310267813.2/2.html,转载请声明来源钻瓜专利网。