[发明专利]实现时序特征抽取的方法及装置在审
申请号: | 202010535143.8 | 申请日: | 2020-06-12 |
公开(公告)号: | CN113806354A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 包新启;陈迪豪;陈靓;王太泽 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06K9/62;G06N20/00 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 王明远 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 时序 特征 抽取 方法 装置 | ||
1.一种实现时序特征抽取的方法,包括:
获取输入的数据表;
若时间窗口长度与所述数据表中全量数据的时间字段对应的总时间范围的时间长度的比值高于阈值,且时序特征抽取为沿时间维度的可聚合计算,则将所述总时间范围拆分为多个时间片,所述时间窗口用于表征对单条数据进行时序特征抽取时需要依赖的数据的时间范围,所述时间窗口能够整除所述时间片;
按照主键和时间片将所述数据表中的数据划分到多个区块中,其中,每个区块对应一个时间片,并且同一区块中数据的主键相同;
将所述多个区块分配给多个第一计算节点进行局部时序特征抽取处理,以得到各个所述区块的区块聚合子特征、各个区块中每条数据的前缀聚合子特征和后缀聚合子特征,所述区块聚合子特征用于表征区块中全量数据的局部时序特征抽取结果,所述前缀聚合子特征用于表征某条数据所在区块与前一个区块的时间边界这一时间范围内的数据的局部时序特征抽取结果,所述后缀聚合子特征用于表征某条数据所在区块与后一个区块的时间边界这一时间范围内的数据的局部时序特征抽取结果。
2.根据权利要求1所述的方法,其中,将多个所述区块分配给多个第一计算节点进行局部时序特征抽取处理的步骤包括:将同一区块分配给单个第一计算节点,
所述第一计算节点对分配到的区块中的全量数据进行特征计算,以得到该区块的区块聚合子特征,
针对所述区块中的每条数据,所述第一计算节点对该区块中该条数据的时间字段值到该条数据所在区块与前一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的前缀聚合子特征,
针对所述区块中的每条数据,所述第一计算节点对该区块中该条数据的时间字段值到该条数据所在区块与后一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的后缀聚合子特征。
3.根据权利要求1所述的方法,其中,将多个所述区块分配给多个第一计算节点进行辅助时序特征抽取处理的步骤包括:将同一区块分别分配给三个第一计算节点,
所述三个第一计算节点中的第一个计算节点用于对分配给该计算节点的区块中的全量数据进行特征计算,以得到该区块的区块聚合子特征,
所述三个第一计算节点中的第二个计算节点用于针对分配给该计算节点的区块中的每条数据,对该区块中该条数据的时间字段值到该条数据所在区块与前一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的前缀聚合子特征,
所述三个第一计算节点中的第三个计算节点用于针对分配给该计算节点的区块中的每条数据,对该区块中该条数据的时间字段值到该条数据所在区块与后一个区块的时间边界这一时间范围内的数据进行特征计算,以得到该条数据的后缀聚合子特征。
4.根据权利要求1所述的方法,还包括:
针对所述数据表中的单条数据,确定该条数据的前缀时间部分、后缀时间部分以及位于所述前缀时间部分和所述后缀时间部分之间的时间片,所述前缀时间部分对应于该条数据的时间字段值到该条数据所在区块与前一个区块的时间边界这一时间范围,所述后缀时间部分对应于该条数据的时间窗口内时间字段值最早的第一条数据到该条第一条数据所在区块与后一个区块的时间边界这一时间范围;
基于对所述前缀时间部分内数据进行特征计算得到的前缀聚合子特征、对所述后缀时间部分内数据进行特征计算得到的后缀聚合子特征以及对位于所述前缀时间部分和所述后缀时间部分之间的时间片所对应的区块中与该条数据对应于相同主键的区块中的全量数据进行特征计算得到的区块聚合子特征,确定该条数据的时序特征抽取结果。
5.根据权利要求1所述的方法,还包括:
对所述输入表中的每条数据进行复制,将复制的数据标记为复制数据,并重置复制数据所处时间片,重置后复制数据所处时间片k′=k+T/W,其中,k为重置前数据所处时间片的序号,T为时间窗口的时间长度,W为时间片的时间长度;
按照主键和时间片将所述数据表中的数据重新划分到多个区块中,其中,每个区块对应一个时间片,并且同一区块中数据的主键相同;
将重新划分后得到的多个区块分配给多个第二计算节点,由所述第二计算节点计算分配给其的区块中每条非复制数据的时序特征抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010535143.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其制备方法
- 下一篇:一种无创动静脉血压计