[发明专利]样本模型训练方法、样本生成方法、装置、设备及介质在审
申请号: | 202010218666.X | 申请日: | 2020-03-25 |
公开(公告)号: | CN111581877A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 张跃 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 周燕君 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 模型 训练 方法 生成 装置 设备 介质 | ||
本发明公开一种样本模型训练方法、样本生成方法、装置、设备及介质。该方法包括:获取原始训练数据,原始训练数据包括样本标签和至少两个样本特征对应的特征数据;将原始训练数据输入到基于树模型构建的初始森林模型,获取原始高阶组合特征;基于样本标签和原始高阶组合特征进行稳定性筛选,确定有效叶子节点,基于有效叶子节点对初始森林模型进行截枝,获取有效森林模型;将原始训练数据输入到有效森林模型,获取有效高阶组合特征;基于样本标签和有效高阶组合特征进行LR正则化筛选,确定目标叶子节点,基于目标叶子节点对有效森林模型进行截枝,获取目标森林模型。该目标森林模型输出模型训练样本维度较高,可保障模型训练的时效性和准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种样本模型训练方法、样本生成方法、装置、设备及介质。
背景技术
由于DeepFM算法有效结合因子分解机与神经网络在特征学习中的优点,可以同时提取到低阶组合特征与高阶组合特征,使其在不同领域被广泛使用。例如,可以采用用户访问系统或者其他场景形成的用户画像数据作为模型训练样本,将模型训练样本输入DeepFM模型进行模型训练,更新DeepFM模型的模型参数,构建基于DeepFM的用户画像分析模型,使得该用户画像分析模型可以同时提取低阶组合特征和高阶组合特征,使其分析结果更准确。
当DeepFM模型训练过程中,每一模型训练样本包括至少两个样本特征对应的数据域,每一数据域中的数值采用One-Hot编码,且每一数据域的大小依据样本特征的特征数据确定。作为一示例,针对年龄这一样本特征,可以将年龄数值进行二进制转换,以获取相应的One-Hot编码,此时,年龄这一样本特征的数据域的大小为最大年龄对应的One-Hot编码的长度。又例如,针对年龄这一样本特征,可以依据预设的年龄段划分,从而确定One-Hot编码,此时,年龄这一样本特征的数据域的大小为年龄段数量。针对城市这一样本特征,包括北京、上海、天津、重庆和广东这几个特征数据,可以分别转换为10000、01000、00100、00010和00001,此时,城市这一样本特征的数据域的大小为预先设置的特征数据的数量。
当前DeepFM模型训练过程中,每一模型训练样本包括至少两个数据域,每一数据域的大小依据样本特征的特征数据确定,在样本特征对应的特征数据存在时间跨度大、离散程度高或者稳定性较差等情况,使得该样本特征的数据域的大小较大,从而形成的模型训练样本的维度较高,在将模型训练样本输入DeepFM模型进行训练时,使得模型训练过程所需系统资源较多且训练时间较长;而且,由于模型训练样本的维度较高,容易出现过拟合,导致无法学习到稳定的DeepFM模型或者训练所得的DeepFM模型的输出结果准确性较低。
发明内容
本发明实施例提供一种样本模型训练方法、样本生成方法、装置、设备及介质,以解决当前DeepFM模型训练所获取的模型训练样本维度较高,导致模型训练所需系统资源较多、训练时间较长及训练所得模型识别准确性较低的问题。
本发明实施例提供一种样本模型训练方法,包括:
获取原始训练数据,所述原始训练数据包括样本标签和至少两个样本特征对应的特征数据;
将所述原始训练数据输入到基于树模型构建的初始森林模型,获取所述原始训练数据对应的One-Hot编码形式的原始高阶组合特征,所述初始森林模型包括依序排布的至少两棵特征树,每一所述特征树与一所述样本特征相对应,包括至少两个初始叶子节点;
基于所述样本标签和所述原始高阶组合特征进行稳定性筛选,确定有效叶子节点,基于所述有效叶子节点对所述初始森林模型的初始叶子节点进行截枝,获取有效森林模型;
将所述原始训练数据输入到所述有效森林模型,获取所述原始训练数据对应的One-Hot编码形式的有效高阶组合特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010218666.X/2.html,转载请声明来源钻瓜专利网。