[发明专利]一种数据类型的确定方法及装置在审
申请号: | 201611199031.X | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228560A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 周婧 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 列数据 数据类型 数量特征 行列 智能 | ||
本发明公开了一种数据类型的确定方法及装置,方法包括:获取行列格式的数据中的每一列数据;确定每一列数据中第一类型的数据以及第二类型的数据在该列数据中的数量特征;基于第一类型的数据以及第二类型的数据在该列数据中的数量特征确定该列数据的数据类型。本发明公开的数据类型的确定方法及装置能够较智能的确定出行列格式的数据中每列数据的数据类型。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据类型的确定方法及装置。
背景技术
在一些应用场景中,数据会以行-列的形式组织,例如,从关系型数据库中导出的文本格式的数据。在对行列格式的数据进行分析(如机器学习建模)之前,通常需要确定每一列数据的数据类型。但有些情况一列数据的数据类型不止一种,比如一列数据中有一个为字符串,其余全部为数值型时,该列就会被判断为字符串型,但这种情况下数据类型的判断结果显然并不能真实反映该列数据的数据类型,不利于后期的数据分析。
然而,现有技术中并没有提供确定列数据的数据类型的有效解决方案,为了便于对行列格式的数据进行后续处理,亟需一种能够有效确定行列格式的数据中每列数据的数据类型的方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案:
一种数据类型的确定方法,所述方法包括:
获取行列格式的数据中的每一列数据;
确定所述每一列数据中第一类型的数据以及第二类型的数据在该列数据中的数量特征;
基于所述第一类型的数据以及所述第二类型的数据在该列数据中的数量特征确定该列数据的数据类型。
其中,所述第一类型的数据以及所述第二类型的数据在该列数据中的数量特征分别为该列数据中所述第一类型的数据所占比例以及所述第二类型的数据的个数;
所述基于所述第一类型的数据以及所述第二类型的数据在该列数据中的数量特征确定该列数据的数据类型,包括:
判断所述第一类型的数据在该列数据中所占比例是否大于第一预设值;
当所述第一类型的数据在该列数据中所占比例大于所述第一预设值时,基于该列数据中第二类型的数据的个数确定该列数据的数据类型;
当所述第一类型的数据在该列数据中所占比例小于或等于所述第一预设值时,确定该列数据的数据类型为所述第二类型。
其中,所述当所述第一类型的数据在该列数据中所占比例大于所述第一预设值时,基于该列数据中第二类型的数据的个数确定该列数据的数据类型,包括:
若所述第一类型的数据在该列数据中所占比例大于所述第一预设值,进一步判断该列数据中第二类型的数据的个数是否小于第二预设值;
当该列数据中第二类型的数据的个数小于所述第二预设值时,确定该列数据的数据类型为所述第一类型;当该列数据中第二类型的数据的个数大于或等于所述第二预设值时,确定该列数据的数据类型为所述第二类型。
所述数据类型的确定方法,还包括:
当该列数据的数据类型为数值型时,判断该列数据中是否包含浮点型数据;
当该列数据中包含所述浮点型数据时,确定该列数据的数据类型为所述数值型中的浮点型;
当该列数据中不包含所述浮点型数据时,确定该列数据的数据类型为所述数值型中的整型。
所述数据类型的确定方法,还包括:
当该列数据的数据类型为字符串型时,基于该列数据中字符串数据的字符串格式确定该列数据的字符串类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199031.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于用户业务的人机交互实现方法及系统
- 下一篇:一种配置处理文本流的方法