[发明专利]一种预测模型的建立方法及终端在审

申请号：	201510883264.0	申请日：	2015-12-03
公开（公告）号：	CN105528652A	公开（公告）日：	2016-04-27
发明（设计）人：	江頔	申请（专利权）人：	北京金山安全软件有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q30/02
代理公司：	广州三环专利代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种预测模型建立方法终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及电子计算领域，尤其涉及一种预测模型的建立方法及终端。

背景技术

广告点击率(Click-ThroughRate)预估是互联网计算广告中的关键环节， CTR预估的准确性直接影响公司广告收入。

目前，在对精准内容(如广告投放/媒体推荐等)的点击率进行预测时，通常是通过建立CTR预测模型进行预测。目前CTR预测模型主要是利用GBDT 模型进行建立CTR预测模型。但是，在利用GBDT(GradientBoostingDecision Tree，梯度提升决策树)模型进行建立CTR预测模型时，样本包括的特征信息中可包括枚举型特征信息，枚举型特征信息可如用户的性别、所在地点等，该特征信息取值众多，而由于GBDT模型较为复杂，无法支持非常大规模的训练数据，因此也无法支持取值多的枚举型特征信息。这使得GBDT模型在对样本进行训练时，往往是丢弃掉包括枚举型特征信息的样本进行训练，这使得GBDT 模型训练的样本类型过少，从而使得训练获得的CTR预测模型无法准确预估结果，从而降低预测准确率。

发明内容

本发明实施例所要解决的技术问题在于，提供一种预测模型的建立方法及终端。可使得终端基于GBDT模型对枚举型特征信息进行训练获得预测模型，提高预测模型的准确性。

为了解决上述技术问题，本发明实施例提供了一种预测模型的建立方法，包括：

从预置的第一训练样本库中获取包括枚举型特征信息的样本；

将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本；

从预置的第一训练样本库中获取包括数值型特征信息的样本，基于梯度提升决策树GBDT模型对包括所述权重的样本和包括所述数值型特征信息的样本进行训练，获得预测模型。

其中，所述获取预置的第一训练样本库之前包括：

从预置的第二训练样本库中获取样本，其中，所述样本包括所述枚举型特征信息；

采用逻辑回归模型对所述样本进行训练，获得所述枚举型特征信息所对应的权重；

建立所述枚举型特征信息与所述权重的对应关系。

其中，所述将所述枚举型特征信息转换为所述枚举型特征所对应的权重，获得包括所述权重的样本包括：

根据所述枚举型特征信息与所述权重的对应关系，获取所述枚举型特征信息所对应的权重；