[发明专利]一种用户行为的机器学习模型的训练方法及装置有效
申请号: | 201310247161.6 | 申请日: | 2013-06-20 |
公开(公告)号: | CN104239351B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 何宪;殷维栋;孟晓楠 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 解婷婷,栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 行为 机器 学习 模型 训练 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种用户行为的机器学习模型的训练方法及装置。
背景技术
非搜索广告是区别于搜索引擎中所投放的关键词广告而言的。
在信息推荐方案中,包括基于关键词的信息推荐方式及基于用户访问历史的信息推荐方式。基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向用户推送的信息。基于用户访问历史的信息推荐方式则根据用户的历史访问日志向用户推送用户可能感兴趣的信息。
信息投放平台是为网站主和信息投放者提供信息投放服务的中介平台。信息投放平台可以使信息投放者更简单便捷地选择信息投放方式及信息投放对象。在信息投放平台中,信息投放者提供需要投放的信息内容或数据。
基于用户访问历史的信息推荐方式中,当用户访问某个网站时,信息投放平台收集用户的cookie信息、网站类型、IP地址等多维度信息。信息投放平台根据这些信息为进行页面访问的当前用户确定推送的信息内容。此场景的核心在于用户的历史行为的统计分析,根据用户的历史行为的统计分析挖掘用户的偏好或可能感兴趣的内容。
目前,业界可以基于用户的历史数据建立统计模型,并使用模型预测用户行为偏好。用户的历史数据是包含了在各个维度上的特征集的样本集合,每一个样本(或样本点)记录了特征集,每个样本与用户行为的统计信息(比如页面访问量、点击率等统计信息对应,以键(key)-值对形式表示,如表1所示。特征集和统计值是由需求方平台根据竞价日志记录得到。
表1、特征集与统计值的关系示例
通常,流量(即用户访问数)或点击率可以用来评价用户行为倾向。但是当样本集中特征维数过大或者样本数量不足时,将会导致某些特征集所对应的“流量数”太小,这里称之为数据稀疏。数据稀疏将会直接导致统计信息不足,从而使用户行为预测的准确度降低。
业界处理数据稀疏问题普遍方法是特征降维,即从初始高维特征集中筛选出低维特征集,缩减特征集的个数。通过对样本集进行特征降维,可以在一定程度上增大特征集所对应的“流量数”,增强统计信息,从而使用户行为预测更加有效。虽然这能在一定程度上解决统计信息不足的问题,但是它并不是解决此问题的根本之道。该技术主要存在以下不足之处:
1)用户行为预测的准确性依赖于合理的特征维数。如果特征维数过高,那么样本集将被划分得很稀疏,大多数特征集所对应的“流量数”太小,统计信息不足;如果特征维数过低,大多数特征集所对应的“流量数”过大,统计信息中蕴含了大量噪声。以上两种情况都将降低用户行为预测准确性;
2)采用特征降维虽然达到了增强统计信息的目的,但同时却忽略了被去除的特征对统计值的影响。根据信息论中的观点,事物之间普通存在着信息联系,被去除特征与统计值也应该存在着某种因果联系;
3)特征降维依然不能彻底解决某些特殊特征集所对应的“流量数”过小的问题,因为这是该样本集具有的自然属性。
发明内容
本发明要解决的技术问题是提供一种用户行为的机器学习模型的训练方法及装置,无需特征降维即可解决数据稀疏问题,提高用户行为预测的准确性。
为解决上述技术问题,本发明提供了一种用户行为的机器学习模型的训练方法,包括:
收集用户的历史访问数据;
将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;
计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;
当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;
选择距离小于距离阈值的其他样本作为当前样本的邻近样本;
将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;
使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。
进一步地,所述将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本,包括:选择一个或多个维度作为基准维度;将所述基准维度对应的特征的特征值相同的历史访问数据集合为一个样本。
进一步地,所述特征集包括用户的特征及用户访问的对象的特征。
进一步地,所述用户的特征包括:用户的IP地址信息、用户行为的时间信息及用户的类型中的一种或多种维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310247161.6/2.html,转载请声明来源钻瓜专利网。