[发明专利]一种基于hadoop的通用创建索引方法及系统有效
申请号: | 201310738719.0 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103678691B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 王冬杰 | 申请(专利权)人: | 世纪禾光科技发展(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙) 11417 | 代理人: | 刘元霞 |
地址: | 100088*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 通用 创建 索引 方法 系统 | ||
技术领域
本发明涉及数据管理领域,特别涉及一种基于hadoop的创建索引方法和系统。
背景技术
随着信息化进程的加快,传统的集中式数据存储与处理方法已经无法满足海量空间数据及其查询处理的需求。云计算技术是近年来计算机领域出现的具有很好可扩展性的处理大规模计算的新技术,其属于建立在大量成本较低的硬件之上的分布式文件系统,能提供高吞吐量的数据访问;MapReduce并行计算框架将大量的数据操作分散给各个计算节点并行处理,达到提高整个云计算平台处理能力的目的。云计算所具备的高伸缩性、高扩展性、高容错性和强大并行处理能力使其成为海量数据高效存储与处理的理想方案。作为开源的云计算平台,hadoop以其扩容能力强、成本低廉、效率高、高可靠性、免费及良好的可移植性等优点,迅速成为当前主流的分布式计算框架和大规模数据存储解决方案。hadoop作为云存储平台,由一个NameNode和多个DataNode组成,其中NameNode负责管理文件系统名称空间和控制外部客户端的访问,DataNode负责存储数据。
随着电子商务的复杂化,平台中的多种海量数据要实现针对不同应用目的的信息检索,而随着需要检索信息种类的增加,不断为每种数据搭建检索系统的项目;同时,为了将每种数据能够在不同的检索系统中检索到,就需要针对每种数据的搜索系统分别建立索引,而建立索引的过程需要信息的支持如:手工编写原始数据信息在索引中的类型,数据信息名称等信息,这就要求开发搜索服务项目时,需要了解业务数据信息与其特点,以及检索过程的要求。
根据每种数据独立实现建立索引存在固有的弊端:索引过程需要开发搜索功能,需要侵入业务系统,了解业务特点,数据特点,以及数据逻辑关系。对于每种类型的数据,建立索引的过程,需要单独部署服务,需要单独开发索引项目,业务复杂程度也大大影响了索引过程和搜索开发。此外,对于业务类型多,同时,每种业务都是海量数据的情况,需要部署的服务器增多,每种数据的建立索引的工程和服务器不能充分共用,造成了资源浪费。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种通用的建立索引方法,以及建立在此方法上的系统。由调用和使用检索系统的服务,按照通用索引系统要求,准备标准格式数据放置于hadoop的HDFS文件系统中,然后,通过在配置文件中配置数据中各列的索引方式,再通过通用索引服务,使用hadoop的分布式方式创建索引。
本发明采用如下技术方案:一种基于hadoop的创建索引的方法,包括业务端服务将待索引数据载入HDFS文件系统,根据对所述数据和索引方式的配置,在该系统中分布式创建索引。
优选地,该方法包括以下步骤:
步骤一、检索和存储数据;
步骤二、配置和数据路径指定;
步骤三、导入配置索引配置文件和数据解析格式;
步骤四、分布式读取数据和写入索引;
步骤五、合并索引。
优选地,其中所述检索和存储数据包括:
业务端服务通过hadoop定期从业务数据中组织检索服务需要的数据,
将检索到的数据信息汇总整理成单条数据,并以通用的JSON格式,存储到hadoop文件系统中的预定义存储目录,
在所述存储目录中,将所有数据按照特定逻辑分割成多个块,然后存储到所述存储目录下的子目录中,以支持后续的索引创建服务的多任务执行。
优选地,所述数据的JSON格式可以根据数据的实际信息量来确定。
优选地,其中所述配置和数据路径指定包括在通用索引系统中配置数据信息,以及数据中的信息索引方式。
优选地,其中所述在通用索引系统中配置数据信息,以及数据中的信息索引方式包括,配置导入数据的索引方式,具体包括:
根据单行数据中的每列的检索属性,在schema文件中配置对应的属性域信息,包括配置描述数据信息写索引时的约束,
完成文件系统数据到索引数据之间的转换,
将完成的上述配置上传到hadoop文件系统中,用于建立索引。
优选地,其中所述数据信息写索引时的约束包括:
name项,用于描述该条数据中属性域的名称是ic,
type项,用于描述数据索引的类型,
indexed项,用于描述此条数据中属性域是否参与索引,
stored项,用于描述此条数据中属性域是否参与存储,
required项,用于描述本属性域是否为必需项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世纪禾光科技发展(北京)有限公司,未经世纪禾光科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310738719.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铁路综合贯通地线及其地线泄流单元单体
- 下一篇:一种遥控器