[发明专利]实现时序特征抽取的方法及装置在审
申请号: | 202010535143.8 | 申请日: | 2020-06-12 |
公开(公告)号: | CN113806354A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 包新启;陈迪豪;陈靓;王太泽 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06K9/62;G06N20/00 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 王明远 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 时序 特征 抽取 方法 装置 | ||
提供了一种实现时序特征抽取的方法及装置。获取输入的数据表;若时间窗口长度与数据表中全量数据的时间字段对应的总时间范围的时间长度的比值高于阈值,时序特征抽取为可聚合计算,将总时间范围拆分为多个时间片,时间窗口能够整除时间片;按照主键和时间片将数据划分到多个区块中,每个区块对应一个时间片,同一区块中数据主键相同;将多个区块分配给多个第一计算节点进行局部时序特征抽取处理,以得到各个区块的区块聚合子特征、区块中每条数据的前缀聚合子特征和后缀聚合子特征。由此,单条数据的时序特征抽取可以拆分为固定时间片的局部计算+不同时间片的归并计算,通过复用时间片的计算结果,可以有效均衡分区并行计算,减少冗余计算。
技术领域
本发明总体说来涉及特征工程领域,更具体地说,涉及一种实现时序特征抽取的方法及装置。
背景技术
在机器学习建模特征工程中,时序特征是指对某条样本进行特征抽取依赖于该条样本的时间戳所处一段时间范围内的历史样本数据,这一时间范围即为时序特征抽取的时间窗口。
时序特征是机器学习建模特征工程中非常重要的组成部分,它们能够更好地刻画样本在时间维度的整体特性,有效提升特征的表达能力和质量,增强后续的模型效果。但是在实际建模场景中,时序特征的抽取性能常常面临考验,原因就是时间窗口数据倾斜问题。
时间窗口数据倾斜问题是指,按照主键列分区导致不同的分区数据量不均衡或者只能产生少量分区:(1)分区数据量不均衡是指,每个分区数据量等于该分区的主键下数据量,如果不同主键下数据量不均衡,则会导致分区数据量不均衡;(2)分区太少是指,分区数目等于不同主键的数目,如果分区数目太少(比如主键=性别),则计算并行度太小(等价于有很多数据量为0的分区),同样会导致数据倾斜问题。
因此,需要一种能够解决数据倾斜问题的时序特征抽取方案。
发明内容
本发明的示例性实施例旨在克服时序特征抽取过程中存在的数据倾斜问题。
根据本发明的第一个方面,提供了一种实现时序特征抽取的方法,包括:获取输入的数据表;若时间窗口长度与数据表中全量数据的时间字段对应的总时间范围的时间长度的比值高于阈值,且时序特征抽取为沿时间维度的可聚合计算,则将总时间范围拆分为多个时间片,时间窗口用于表征对单条数据进行时序特征抽取时需要依赖的数据的时间范围,时间窗口能够整除时间片;按照主键和时间片将数据表中的数据划分到多个区块中,其中,每个区块对应一个时间片,并且同一区块中数据的主键相同;将多个区块分配给多个第一计算节点进行局部时序特征抽取处理,以得到各个区块的区块聚合子特征、各个区块中每条数据的前缀聚合子特征和后缀聚合子特征,区块聚合子特征用于表征区块中全量数据的局部时序特征抽取结果,前缀聚合子特征用于表征某条数据所在区块与前一个区块的时间边界这一时间范围内的数据的局部时序特征抽取结果,后缀聚合子特征用于表征某条数据所在区块与后一个区块的时间边界这一时间范围内的数据的局部时序特征抽取结果。
可选地,将多个区块分配给多个第一计算节点进行局部时序特征抽取处理的步骤包括:将同一区块分配给单个第一计算节点,第一计算节点对分配到的区块中的全量数据进行特征计算,以得到该区块的区块聚合子特征,针对区块中的每条数据,第一计算节点对该区块中该条数据的时间字段值到该条数据所在区块与前一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的前缀聚合子特征,针对区块中的每条数据,第一计算节点对该区块中该条数据的时间字段值到该条数据所在区块与后一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的后缀聚合子特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010535143.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其制备方法
- 下一篇:一种无创动静脉血压计