[发明专利]一种快速数据分析而生文本格式的方法在审
申请号: | 201710880069.1 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107590270A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 黄礼成;张蓉;姜雪 | 申请(专利权)人: | 南京哈卢信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司32206 | 代理人: | 吕书桁 |
地址: | 210000 江苏省南京市雨花台*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 数据 分析 文本 格式 方法 | ||
技术领域:
本发明涉及一种快速数据分析而生文本格式的方法,属于互联网技术领域。
背景技术:
近年来,随着计算机信息技术的普及以及互联网技术的高速发展,计算机用户逐渐从信息的浏览者变成了信息的制造者,文本数据规模急剧增长。典型的文本数据包括大规模网页中的文本内容、购物网站中的产品介绍和用户评论、新闻网站中的新闻报道、社交媒体的短文本消息、电子邮件和聊天记录、工作中产生的办公文档等。这些文本数据逐渐呈现出典型的大数据特征:体量大、更新快、格式复杂多样、质量参差不齐。一方面,这些数据中蕴含着极大的价值,人们挖掘和利用文本大数据的需求也越来越强烈;同时,越来越严重的信息过载问题导致了海量文本大数据的出现。文本大数据的分析和应用迎来了崭新的机遇和挑战。
文本分析技术旨在通过计算机技术对无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取,挖掘和分析出其中存在的事实以及隐含的立场、观点和价值,进而推断出文本生成者的意图和目的。文本分析是典型的自然语言处理工作,是文本挖掘、信息检索领域的一个基本研究问题。其关键子任务主要有分词、词性标注、命名实体识别、句法分析、语义角色标注、文本分类、文本聚类、自动文摘、情感分析、信息抽取、实体匹配与消歧等。传统的文本分析技术已广泛应用在自动问答系统、搜索引擎、用户商业意图识别等领域和系统中。
在对大数据的认识中,人们总结出它的4V特征,即容量大、多样性、生产速度快和价值密度低,为此产生出大量的技术和工具,推动大数据领域的发展。为了利用好大数据,如何有效的从其中提取有用特征,也是重要的一方面。
发明内容:
本发明的目的是针对上述存在的问题提供一种快速数据分析而生文本格式的方法,能够实现多种数据访问类型的低延迟,允许压缩编码过数据上的快速查询,确保空间高效性 Hadoop生态系统上可行的通用格式读最优化的列式存储,利用多级索引实现低延迟,支持利用列组来获得基于行的优点,能够对聚合的延迟解码,进行字典编码。
上述的目的通过以下的技术方案实现:
一种快速数据分析而生文本格式的方法,该方法包括:
(1)对每列的取值进行Hash;
(2)进行MDK排序;
(3)文件级别Blocklet索引;
(4)建立用于过滤的内存中的文件级别MDK索引,为高效扫描做的主要优化;
(5)倒排索引:在column chunk选择性的将列数据存储为倒排索引,取值种类少的列压缩效果更加好利于快速判断过滤。
所述的快速数据分析而生文本格式的方法,步骤(1)中所述的对每列的取值进行Hash的方法包括直接寻址法或者数字分析法或者平方取中法或者折叠法或者随机数法或者除留余数法。
有益效果:
本发明能够实现多种数据访问类型的低延迟,允许压缩编码过数据上的快速查询,确保空间高效性 Hadoop生态系统上可行的通用格式读最优化的列式存储,利用多级索引实现低延迟,支持利用列组来获得基于行的优点,能够对聚合的延迟解码,进行字典编码。
具体实施方式:
实施例1:
一种快速数据分析而生文本格式的方法,该方法包括:
(1)对每列的取值进行Hash;
(2)进行MDK排序;
(3)文件级别Blocklet索引;
(4)建立用于过滤的内存中的文件级别MDK索引,为高效扫描做的主要优化;
(5)倒排索引:在column chunk选择性的将列数据存储为倒排索引,取值种类少的列压缩效果更加好利于快速判断过滤。
所述的快速数据分析而生文本格式的方法,步骤(1)中所述的对每列的取值进行Hash的方法包括直接寻址法或者数字分析法或者平方取中法或者折叠法或者随机数法或者除留余数法。
本发明方案所公开的技术手段不仅限于上述技术手段所公开的技术手段,还包括由以上技术特征等同替换所组成 的技术方案。本发明的未尽事宜,属于本领域技术人员的公知常识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京哈卢信息科技有限公司,未经南京哈卢信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880069.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置