[发明专利]一种实现Hadoop文件处理的方法及装置在审
申请号: | 201410203430.3 | 申请日: | 2014-05-14 |
公开(公告)号: | CN103970874A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 辛国茂;赵仁明;房体盈;亓开元 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;栗若木 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 hadoop 文件 处理 方法 装置 | ||
1.一种实现Hadoop文件处理的方法,其特征在于,包括:
读取需要处理的分布式文件系统Hadoop的文本文件;
逐行提取文本文件并转换为映射Map规约Reduce接受的数据类型的内容;
逐行读取转换后的文本文件内容,以确定是否进行断行处理。
2.根据权利要求1所述的方法,其特征在于,所述逐行读取转换后的文本文件内容,以确定是否进行断行处理包括:
逐行读取转换后的文本文件内容,当文本文件内容的字段中包含换行符LF时,进行断行;或,
当文本文件内容的字段中包含回车符CR时,进一步判断CR的下一字符是否是LF,如果是,进行断行;否则,不断行。
3.一种实现Hadoop文件处理的装置,其特征在于,包括:读取单元、提取转换单元和确定单元;其中,
读取单元,用于读取需要处理的分布式文件系统Hadoop的文本文件;
提取转换单元,用于逐行提取文本文件并转换为映射Map规约Reduce接受的数据类型的内容;
确定单元,用于逐行读取转换后的文本文件内容,以确定是否进行断行处理。
4.根据权利要求31所述的装置,其特征在于,所述确定单元具体用于:
逐行读取转换后的文本文件内容,当文本文件内容的字段中包含换行符LF时,进行断行;或,
当文本文件内容的字段中包含回车符CR时,进一步判断CR的下一字符是否是LF,如果是,进行断行;否则,不断行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410203430.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有储存功能的名片通
- 下一篇:钢琴用乐谱夹