[发明专利]一种多模型融合的用户属性预测方法在审
申请号: | 202210380743.0 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114820050A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 黎才茂;陈秋红;林昊;侯玉权;李浩 | 申请(专利权)人: | 海南大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N20/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 570228 海*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 融合 用户 属性 预测 方法 | ||
本发明公开了一种基于Stacking多模型融合的用户属性预测方法,包括数据收集、特征工程、模型训练、交叉验证和精度评价;在数据收集中获取用户的广告点击浏览记录并将数据进行清洗以及分割;在特征工程中使用特征相关性热力图显示各特征之间的相关性并使用XGBoost算法得到各特征重要性排名,结合特征的相关性和重要性排名对特征进行筛选;在模型训练过程中使用逻辑回归、随机森林、极限树、XGBoost算法作为Stacking模型的第一层,使用LightGBM作为Stacking模型的第二层对特征进行训练;交叉验证时使用五折交叉验证方式;精度评价过程中使用准确率、召回率、F1值以及精确率对预测结果进行评价;本发明能对广告用户的性别和年龄进行预测。
技术领域
本发明属于机器学习领域,涉及一种多模型融合的用户属性预测方法。
背景技术
随着网络技术的快速发展,网络广告成为商家宣传的主要方式之一;在网络上发布广告,传播速度更快、传播范围更广,比线下发布广告的效率更高,因此网络上充满了各式各样的广告;在广告定向中,用户的搜索内容、浏览记录和基础属性等有着重要作用,其中基础属性性别、年龄至关重要,但并非所有用户都愿意公开自己的年龄、性别信息,因此会导致用户的基础属性数据缺失,就需要利用现有数据及相关算法进行预测。
目前现有研究主要采用 SVM、贝叶斯等传统机器学习方法,集成学习作为机器学习的重要部分也逐渐被应用于用户属性预测领域;现有的用户属性预测方法大多通过分析用户的搜索、浏览等互联网行为数据,结合贝叶斯网络算法、随机森林、SVM等单一机器学习算法对用户的性别及年龄进行预测;也有学者以微博用户为研究对象,基于用户昵称、标签、微博文本等对用户的性别、年龄进行预测推测,但其准确率仅为 73.6%;还有的预测方法将LightGBM和FM等算法融合,分析智能手机 App 安装和使用情况,预测用户的基础属性,最终其对性别的预测准确率为67.65%。
综上所述,目前对于广告用户的性别、年龄预测还处于起步阶段,大多使用朴素贝叶斯或者支持向量机等机器学习常用的算法,并且算法较为单一,导致对属性的预测效果不佳。
发明内容
为解决现有技术在广告用户属性预测的不足,本发明提供了一种用户属性预测方法。有效提升了用户属性预测效果较差的问题,技术方案如下:
一种基于Stacking多模型融合的用户属性预测方法主要步骤如下:
(1)对用户的浏览记录进行数值化处理得到训练样本,并将数据集划分为训练集和测试集;
(2)对特征相关性进行分析以及重要性排名,剔除掉相关性高,并重要性排名较低的特征,实现对特征的筛选;
(3)将处理好的数据集输入到基于Stacking的多算法模型中进行训练,实现多层次、多算法的融合学习;
(4)采用五折交叉验证的方式对模型进行训练,最大程度的减少过拟合;
(5)将测试集输入到预测模型中得到预测结果,并得到用户年龄和性别征准确率、召回率、F1值和精确度等性能指标;
(6)对Stacking第一层的元分类器逻辑回归、随机森林、极限树和XGBoost算法进行随机组合得到14组对比模型,分别将数据集输入到14个模型中进行训练,结合本方法的模型对比15个模型的准确率、召回率、F1值和精确度等性能指标,验证模型预测的效果。
附图说明
为了更清楚的说明本发明的具体技术方案,下面将对本发明中涉及的附图进行说明。
图 1 是训练流程图;
图 2 是特征相关性热力图;
图 3 是特征重要性排名图;
图 4 是Stacking的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210380743.0/2.html,转载请声明来源钻瓜专利网。