[发明专利]一种实现Hadoop文件处理的方法及装置在审
申请号: | 201410203430.3 | 申请日: | 2014-05-14 |
公开(公告)号: | CN103970874A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 辛国茂;赵仁明;房体盈;亓开元 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;栗若木 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种实现Hadoop文件处理的方法及装置,包括:读取需要处理的分布式文件系统(Hadoop)的文本文件;逐行提取文本文件并转换为映射(Map)规约(Reduce)接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。本发明通过将读取的文本文件直接转换为MapReduce接受的数据类型的内容,逐行的对处理为断行的内容进行确定,节省了预处理过程中删除CR造成的耗时,且不需要额外占用磁盘空间。 | ||
搜索关键词: | 一种 实现 hadoop 文件 处理 方法 装置 | ||
【主权项】:
一种实现Hadoop文件处理的方法,其特征在于,包括:读取需要处理的分布式文件系统Hadoop的文本文件;逐行提取文本文件并转换为映射Map规约Reduce接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410203430.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种具有储存功能的名片通
- 下一篇:钢琴用乐谱夹