[发明专利]稀疏数据的访问方法及系统有效
| 申请号: | 201710439233.5 | 申请日: | 2017-06-06 |
| 公开(公告)号: | CN107273483B | 公开(公告)日: | 2019-11-05 |
| 发明(设计)人: | 李为冲;丁洪;傅浩;刘明 | 申请(专利权)人: | 贵州易鲸捷信息技术有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/174;G06F16/245 |
| 代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 孟凡臣 |
| 地址: | 550017 贵州省贵阳市白*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 稀疏 数据 访问 方法 系统 | ||
本发明提供了一种稀疏数据的访问方法及系统,方法为:在数据库中对数据建立事实表时,创建稀疏矩阵,稀疏矩阵由多个稀疏列组成;在稀疏矩阵中至少对一个稀疏列进行标记,得到被标记的稀疏列,并将被标记的稀疏列作为主键的第一列;获取查询条件,根据查询条件在事实表中进行稀疏列的查询:当查询条件中对应的稀疏列为有效数据,将查询条件中对应的稀疏列作为限定查询条件;当查询条件中对应的稀疏列为无效数据,重新返回步骤S1;根据查询条件和限定查询条件,实现查询条件中对应的稀疏列所对应数据的访问。本发明采用了对稀疏列进行标记的方式,并且不需要二级索引,直接使用基本表,可以在持续数据输入的情况下,高效地对数据进行过滤读取。
技术领域
本发明涉及数据访问技术领域,尤其涉及稀疏数据的访问方法及系统。
背景技术
日志文件广泛应用于各种服务中,如网页服务器,数据库和应用服务器。日志用来记录不同类型的信息,这些信息拥有不同的重要性等级。日志可以用于调试和排错。通常情况下,日志文件集中保存在网络文件系统中,但也可以分散保存(每个服务器包含应用程序自身运行所产生的日志)。能够从各种日志中有效地提取有用信息对于开发/调试应用,以及确保生产环境的正确运行,都是一项十分重要的任务。然而日志通常是文本文件,因此搜索和分析日志就很困难并且要花费高昂的代价。首先要将日志文件存储到数据库的结构化或半结构化的表里。再通过查询数据库,运用复杂的算法来进行模式识别、统计分析或机器学习,从而获取所需要的信息。
目前现有日志分析系统中,都采用反数据库范式的设计。和传统的数据库系统的三范式设计不同,日志表被设计为单表,以便保证日志的加载速度。因为日志随时随地产生,且数据巨大,需要不间断地加载到分析系统中,如果采用第三范式的设计方法,将影响加载数据。而采用单表则有比较好的加载性能,因为不需要更新和管理多张相互关联的表,但这样做的代价就是会导致表非常巨大。因此现有日志分析系统,对日志信息并没有采用特殊的存储和访问方法。而日志的有用信息是相当稀疏的,导致对日志的检索非常低效。
一般情况下,在海量的日志信息中,只有很少的日志条目含有有用信息。例如,跟踪网页服务器流量的日志,其中只有极小一部分含有恶意软件行为相关的信息,或者含有其他特定网页搜索行为的相关日志条目。相对所有的网页流量而言,这些恶意软件和网页搜索行为是极少的(我们称之为稀疏数据),但他们仍然具有重要的意义(因为这些极有可能就是客户要对某些案例做分析或查询所需要的信息)。第二个例子是,设想下SQL查询数据库的相关日志。数据库里一张表的一列记录了每条SQL语句的相关日志,比如SQL错误信息。如果这条SQL执行成功则记为null,否则存储出错信息。由于大多数SQL语句会执行成功,并不会有相关错误信息,这个列的数据就会是稀疏的(几乎都是NULL),但SQL出现错误的语义价值肯定是很高的,因为这些信息正是用户所关注的。
通过上述两种情况,可以看到,稀疏数据列含有相当重要的语义信息,以它们作为查询条件的语句肯定是100%存在的。目前主流数据库均支持二级索引,但传统上基于BTree的二级索引无法高效地支持稀疏检索。
现有技术中,对于这个问题的对策是,在这个稀疏列上创建二级索引。然而当表非常大而且数据流入速率非常高时,索引不是一个好的解决方法,因为索引的更新会降低数据流人速率。但如果没有索引或其它措施,以稀疏数据为过滤条件对含有日志信息的表执行的查询,将会进行全表扫描(或仅受限于日期范围的扫描),进而导致非常慢的访问速度。
因此,现有技术中的缺陷是,对于稀疏数据的访问,通过在稀疏列上创建二级索引的方式实现数据的访问,由于索引的更新会降低数据流人速率,以稀疏数据为过滤条件对含有日志信息的表执行查询时,将会进行全表扫描,导致访问速度非常慢。
发明内容
针对上述技术问题,本发明提供一种稀疏数据的访问方法及系统,采用了对稀疏列进行标记的方式,并且不需要二级索引,直接使用基本表,可以在持续数据输入的情况下,高效地对数据进行过滤读取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州易鲸捷信息技术有限公司,未经贵州易鲸捷信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710439233.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





