[发明专利]一种数据正则表达式的挖掘方法及装置有效

申请号：	201310347701.8	申请日：	2013-08-12
公开（公告）号：	CN103425771A	公开（公告）日：	2013-12-04
发明（设计）人：	王明兴;贾西贝	申请（专利权）人：	深圳市华傲数据技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市南山区高新区中***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据正则表达式挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据处理领域，尤其涉及一种数据正则表达式的挖掘方法及装置。

背景技术

数据挖掘是指从大量的、不完全的、模糊的、有错误的数据中，提取人们不知道的但又对使用人有价值的信息的过程。数据挖掘流程通常包含对数据进行预处理、数据挖掘算法的实现以及对挖掘结果的展示。早期的数据挖掘流程采用单机节点上的串行方式来实现，单机节点的数据挖掘系统，其可挖掘的数据量及算法的负载度，依赖于单个执行节点的性能。由于现行数据挖掘系统都是需要针对海量数据进行处理，这种采用单机节点上的串行处理办法仅能支持少量数据，并且性能较低。后来随着数据挖掘技术的发展，现行挖掘方法有采用工作流中多个并行计算的方法来解决上述单节点串行方式处理数据挖掘所导致的处理效率低下的问题。在并行处理中，当多个并行的数据处理任务被触发时，为其中的每个数据处理任务分配执行节点，以使得上述多个并的数据处理任务在分配的执行节点上并行执行，在执行节点上通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理，将该数据处理任务对应的各Map任务的结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。

正则表达式是指描述一种字符串匹配的模式，从而进行文本匹配、数据解析、数据容错和业务分析等应用，正则引擎主要可以分为两大类：一种是DFA，一种是NFA。这两种引擎都有了很久的历史(至今二十多年)，当中也由这两种引擎产生了很多变体！于是POSIX的出台产生规范了不必要变体的继续产生。这样一来，主流的正则引擎又分为3类：一、DFA，二、传统型NFA，三、POSIX NFA。将正则表达式进行应用的方法和技术很多，但是对于如何生成一种更为有效的正则表达式却很少，例如Sergei Savchenko在《PRACTICAL REGULAR EXPRESSION MINING AND ITS INFORMATION QUALITY APPLICATIONS》一文中提出了一种基于智能有限自动机的正则表达式挖掘方法，但是这一方法同样存在很大的局限性，例如该方法有分布要求以及数据集大小只能在30-50之间。

目前，数据处理领域都没有一种能够针对包含错误数据的海量数据进行挖掘数据本质结构，并形成一个正则表达式的挖掘方法。

发明内容

为此，本发明为了解决上述缺陷之一。

因而，本发明提供一种数据正则表达式的挖掘方法及装置，通过将获取到的数据存储在字典树结构中，这样可以实现对海量数据进行挖掘，根据预先制定的正则表达式规则表格对数据节点进行升级，然后根据升级后的子节点个数和相同字符情况进行分支合并，同时识别出干扰分支，并进行分支删除，最后将生成的规则树转换成字符串格式进行输入。本发明实现了对包含错误数据的海量数据正则表达式的挖掘，该规则树可以满足对错误数据的挖掘，可以用以对数据进行检查并找出其错误数据。

所以，本发明一个实施例提供一种数据正则表达式的挖掘方法，该方法包括以下步骤：

获取存储数据，并采用字典树结构存储；

根据正则表达式规则进行节点升级；

根据升级后节点的子节点个数和相同字符子节点数分别进行分支合并；

识别干扰分支，并进行分支删减；

将规则树转换成字符串格式并输出。

在本发明实施例中采用字典树结构存储数据，存储的数据信息包括：节点字符、所有节点、字符重复次数、进入节点的数据条数及终止节点的数据条数。

优选地，所述节点升级包括：根据正则表达式规则预先制定包含字符级别和升级关系的规则表格；根据所述规则表格进行节点升级。

优选地，所述分支合并包括：纵向合并和横向合并；所述纵向合并仅当某个节点只有一个子节点，且该子节点的字符等同于父节点时进行；所述横向合并当节点升级后某个父节点包含相同字符的子节点时进行。

优选地，所述识别干扰分支包括：预先设定一个阀值，阀值根据节点平均进入数和系数之乘积来确定；如果某分支的进入记录数小于所述阀值，则判定为干扰分支。

所述识别分支还包括：如果某节点的终止记录数小于所述阀值，则判定为干扰点，应将所述节点的终止记录数设置为0。

本发明另一个实施例提供一种数据正则表达式的挖掘装置，该装置包括：