[发明专利]一种特征数据的编码方法及装置在审
申请号: | 202110774090.X | 申请日: | 2021-07-08 |
公开(公告)号: | CN113656400A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 张炜林 | 申请(专利权)人: | 上海二三四五网络科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200137 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 数据 编码 方法 装置 | ||
本发明提供一种特征数据的编码方法,包括:a.按照各节点层级的高低顺序将以行形式存储的数据表转换为以层级作为对应关系的列形式存储的编码模式,以层级作为对应关系的列形式至少包括作为表征数据的首列数据以及按照层级高低进行划分的N列数据;b.按照高层级至低层级的指向路径对所述N列数据中的每一项按照特定顺序进行赋值,赋值至少体现对当前层级对应的上层级关系的标签溯源。本发明对特征数据的编码结构和编码方式进行重新改进,对特征数据中的特征结构进行结构化的分类,降低特征的数据的治理难度,满足特征数据高效存储,降低存储成本,更小的I/O操作,特征数据按需加载,整体数据结构灵活,扩展性更强、功能强大、具有极高的商业价值。
技术领域
本发明属于计算机技术领域,具体地,涉及一种特征数据的编码方法及装置。
背景技术
特征工程在机器学习有着较为重要的作用,其作为模型训练的前置流程,帮助模型训练在海量的数据中进行特征清洗、特征提取。在线模型预估中又做为模型的前置处理,在模型预估查询实时特征带入到在线模型中进行实时预估。工业级别的特征数据会耗费庞大计算和存储资源,其数据量通常为PB级别、条数高达数百亿,同时特征的数据需要非常快速的进行处理,并不能对业务服务有过大的冲击,为了满足特征数据能够高效的进行存储、查询、分析,需要对特征数据的编码进行深度改造。
特征的数据存储通常为行级别存储,其数据按照行存储在HDFS中,离线分析使用MapReduce模型,Map阶段对数据进行分析,每个节点计算部分数据,最后通过Reduce进行数据合并。目前对于特征数据离线处理的方式使用较多的为Mapreduce,则需要把数据所有行、所有列,全部加载到内存中去,这些动则上千的特征、数百亿行的条数、PB级别的存储。通过Map和Reduce把数据抽取并合并出来,这样会导致特征数据分析是顺带把大量无效的数据也一并处理了,这样的IO、网络、计算消耗是非常庞大的。
而目前,并没有一种能够解决上述技术问题的技术方案,具体地,并没有一种特征数据的编码方法及装置。
发明内容
针对现有技术存在的技术缺陷,本发明的一个目的是提供一种特征数据的编码方法及装置,根据本发明的一个方面,提供了一种特征数据的编码方法,其用于特征数据的高效存储,包括如下步骤:
a.按照各个节点层级的高低顺序将以行形式存储的数据表转换为以层级作为对应关系的列形式存储的编码模式,所述以层级作为对应关系的列形式至少包括作为表征数据的首列数据以及按照层级高低进行划分的N列数据,其中,所述以层级作为对应关系的列的个数为所述节点层级的个数,N>1;
b.按照高层级至低层级的指向路径对所述N列数据中的每一项按照特定顺序进行赋值,所述赋值至少体现对当前层级对应的上层级关系的标签溯源。
优选地,在打开以行形式存储的数据表之前、之时或之后,且在对所述特征数据进行编码之前,对以行形式存储的数据表进行筛选以获取用户需求的行数据。
优选地,针对行形式存储的数据表中所存在的空数据,按照高层级至低层级的指向路径对空数据所对应的列数据中的每一行赋值为0。
优选地,针对行形式存储的数据表中所存在的节点层级不同,将节点层级最高的节点个数作为当前编码模式的节点层级的个数。
优选地,在所述步骤b中,所述特定顺序包括数字排列或者字母排列。
优选地,在数字排列中,将通过从0开始计数的形式依次记录所述N列数据中的每一项的上层节点所对应的以行形式存储的数据表中各个节点的层级位置。
优选地,在所述步骤a之前,还包括步骤:
i:对以行形式存储的数据表中的英文字母按照出现的先后顺序进行排列后打上数字标记;
ii:将所述以行形式存储的数据表中的英文字母以单词为单位确定与所述单词相对应的被数字标记替换后的数字坐标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海二三四五网络科技有限公司,未经上海二三四五网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110774090.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置