[发明专利]一种hadoop环境下的数据处理方法在审
申请号: | 201810402034.1 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108595663A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 王海风;王书勤;张红昌 | 申请(专利权)人: | 尚谷科技(天津)有限公司;王海风;王书勤;张红昌 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津市尚文知识产权代理有限公司 12222 | 代理人: | 张东浩 |
地址: | 300457 天津市滨海新区天津开发区信环西路19号泰达服*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据字典 逻辑数据 数据处理 索引 标识符 自然语言解析 待调度数据 处理负荷 方式处理 目标数据 判断结果 数据分布 数据判断 数据投影 提升系统 投影数据 物理模型 需求提取 展示数据 不均匀 解析 分担 | ||
本发明提供了一种hadoop环境下的数据处理方法建立多个数据字典索引,根据用户的需求依靠多个数据字典索引选取合适的数据字典;通过标识符模式搭建hadoop环境下的物理模型库,按照用户的需求提取逻辑数据,对提取的逻辑数据实施自然语言解析,采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并展示数据判断结果。该方法能够将待调度数据节点的处理负荷分担至目标数据节点,减轻SQL on hadoop系统中数据分布不均匀的问题,提升系统性能。
技术领域
本发明属于大数据处理领域,具体地,涉及一种hadoop环境下的数据处理方法。
背景技术
随着信息技术的迅速发展,我们每天所能够接触到的信息呈现了爆炸式增长的态势。信息的过载使得人们希望通过各种有效的方式从海量的数据中找到自己感兴趣的内容。信息检索可以在一定程度上解决上述问题。但是信息检索本身不能直观的把用户感兴趣的内容所隐藏的规律展示出来。所以,如何根据每个用户的特点帮助用户从海量数据中又快又准的找到自己感兴趣的信息和规律,已经成为一个很棘手的问题,而信息可视化技术可以很好的解决这个问题。
云计算通过互联网将庞大的数据存储和计算处理程序分布到集群系统的计算机中,并且提供相应的应用程序服务。用户在对资源提交访问请求时,系统能够自动地将请求切换到实际的存放资源的计算机和存储系统。虚拟化技术的云计算平台在海量数据处理方面取得了令人满意的成果。但云计算将海量数据分布在大规模集群上进行并行处理,由于目前主流云计算平台底层采用虚拟化技术,其上所有软件和应用均运行在虚拟硬件之上,这种策略必然带来一定程度上的性能降低。而且MapReduce内部实现机制是采用先存储数据再读出转发处理的策略,当中间数据量变大、个数增多时,这种模式必然产生大量的无用的磁盘I/O操作;如果数据在远端,这样会增加网络负载;如果数据在本地,则会受I/O瓶颈限制,从而降低了任务执行的效率。
如何根据每个用户的特点帮助用户从海量数据中又快又准的找到自己感兴趣的信息,已经成为一个很棘手的问题,而信息可视化技术可以很好的解决这个问题。
发明内容
为了解决上述描述的技术问题,本发明请求保护一种hadoop环境下的数据处理方法,用于在大数据分布式环境下准确的识别出用户需求,采取合理的决策方案。
本发明的技术方案是建立多个数据字典索引,根据用户的需求依靠多个数据字典索引选取合适的数据字典;通过标识符模式搭建hadoop环境下的物理模型库,按照用户的需求提取逻辑数据,对提取的逻辑数据实施自然语言解析,采用数据投影的方式处理解析后的数据得到投影数据用于完成数据判断,并展示数据判断结果。
具体地,该hadoop环境下的数据处理方法还包括下列步骤:
A:用户向hadoop环境下的系统服务器提出数据判断需求,系统服务器定时更新所述数据判断需求不局限于用户根据该数据所使用的事务类型和事务目标;
B:依照用户的需求识别数据字典索引,根据数据字典索引与数据字典的映射关系,选择正确的数据字典;
C:构建标识符模式,当用户进行需求有关的数据检索时 ,能够按照需求所使用的标识符在标识符库中进行粗查询和细查询相结合的搜索,如果标识符库中的标识符与需求所使用的标识符存在相一致的,则调用该一致的标识符结果,如果标识符库中的标识符与需求所使用的标识符不存在相一致的,则退回从数据字典索引中查找,并将查找的数据字典的结果存储在标识符库中;
D:依据步骤C中的查找搜索结果搭建hadoop环境下的物理模型库,并将标识符、用户判断需求和数据字典建立映射关系模型,将该映射关系模型存储在物理模型库中;
E:对建立的物理模型库中的用户需求数据进行逻辑数据的抽取,采用隐马尔科夫模型对逻辑数据进行自然语言处理分析,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于尚谷科技(天津)有限公司;王海风;王书勤;张红昌,未经尚谷科技(天津)有限公司;王海风;王书勤;张红昌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810402034.1/2.html,转载请声明来源钻瓜专利网。