[发明专利]训练机器学习模型的方法、预测方法、计算设备和介质在审
申请号: | 202111652923.1 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114372579A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张卿;袁云滔;王姜;潘雄飞 | 申请(专利权)人: | 胜斗士(上海)科技技术发展有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 庞淑敏 |
地址: | 201204 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 机器 学习 模型 方法 预测 计算 设备 介质 | ||
本公开提供了一种用于训练针对目标对象的机器学习模型的方法、预测目标对象的销售额的方法、计算设备和计算机可读存储介质。该方法包括:获取多个目标对象在多个单位时间的时序数据集合,所述时序数据集合包括每个目标对象在每个单位时间的多个特征值;沿主键方向对所述时序数据集合分段以产生多个主键分段;沿时间方向对每个主键分段进行分段以产生多个特征数据集文件,其中每个特征数据集文件包括所述至少两个目标对象在一个第一时间段的时序数据,并且所述第一时间段包括多个单位时间;以及根据第二时间段内的特征数据集文件得到对所述机器学习模型进行训练的训练数据集,其中所述第二时间段包括多个第一时间段。
技术领域
本公开概括而言涉及机器学习领域,更具体地,涉及一种用于训练针对目标对象的机器学习模型的方法、预测目标对象的销售额的方法、计算设备和计算机可读存储介质。
背景技术
在进行机器学习模型训练时,需要尽可能减少数据处理时间、高效地读取数据来进行训练。通常的做法是将原始数据处理为训练数据,存储在一组可顺序读取的标准格式文件中。
这样,在利用时序型数据的深度学习算法,如LSTM(Long Short-term Memory,长短时记忆)算法等,进行模型训练时,需要将同一主键(目标对象)的多条时序原始数据先处理再打平,作为不同的特征合并为一条训练数据,并且将多条训练数据合并存储为诸如TFRecord之类的格式文件。
然而,当数据量非常大时,将时序原始数据处理打平以生成训练数据的操作非常耗时。尤其是,时序原始数据随着时间的推移会不断增加,因此每次训练前都针对包括新增数据的全量数据从头开始做耗时的打平操作,花费的时间将非常长,严重影响模型训练的效率。
发明内容
针对上述问题中的至少一个,本公开提供了一种将多个目标对象的时序数据按照主键和时间两个方向进行分段处理的方案。
根据本公开的一个方面,提供了一种用于训练针对目标对象的机器学习模型的方法。该方法包括:获取多个目标对象在多个单位时间的时序数据集合,所述时序数据集合包括每个目标对象在每个单位时间的多个特征值;沿主键方向对所述时序数据集合分段以产生多个主键分段,其中每个主键分段包括所述多个目标对象中的至少两个目标对象的时序数据;沿时间方向对每个主键分段进行分段以产生多个特征数据集文件,其中每个特征数据集文件包括所述至少两个目标对象在一个第一时间段的时序数据,并且所述第一时间段包括多个单位时间;以及根据第二时间段内的特征数据集文件得到对所述机器学习模型进行训练的训练数据集,其中所述第二时间段包括多个第一时间段。
在一些实施例中,该方法还包括:对于每个主键分段,获取所述主键分段所包括的至少两个目标对象在增量第一时间段的增量时序数据;为所述增量时序数据产生增量特征数据集文件;以及利用所述增量特征数据集文件替换所述第二时间段内的特征数据集文件以作为下一训练数据集对所述机器学习模型进行迭代训练。
在一些实施例中,该方法还包括:存储所述多个特征数据集文件的第一元数据信息,所述第一元数据信息指示每个主键分段和所述主键分段所包含的至少两个目标对象之间的对应关系;在每个主键分段下存储所述主键分段的第二元数据信息,所述第二元数据信息指示所述主键分段下的第一时间段与特征数据集文件之间的对应关系;以及在所述每个主键分段下存储所述主键分段下的特征数据集文件。
在一些实施例中,在所述第一元数据信息中,所述多个主键分段随机排列。
在一些实施例中,在所述第一元数据信息中,所述多个主键分段基于主键分段的顺序排列。
在一些实施例中,该方法还包括:以特征值为行,主键为列的方式存储每个特征数据集文件,并且其中,根据第二时间段内的特征数据集文件得到对所述机器学习模型进行训练的训练数据集包括:在要将所述第二时间段所包含的多个第一时间段内的特征数据集文件读取到内存中的情况下,直接将每个特征数据集文件的特征值沿着行的方向合并,并且在合并完成后进行行列转换以产生所述机器学习模型的训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胜斗士(上海)科技技术发展有限公司,未经胜斗士(上海)科技技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111652923.1/2.html,转载请声明来源钻瓜专利网。