[发明专利]用于解析低信息熵数据的方法及其系统在审

专利信息
申请号: 201710601209.7 申请日: 2017-07-21
公开(公告)号: CN107436935A 公开(公告)日: 2017-12-05
发明(设计)人: 汤红;黄军文;李文强;张波;林晓斌 申请(专利权)人: 深圳市华付信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06N5/04
代理公司: 深圳市精英专利事务所44242 代理人: 冯筠
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 解析 信息 数据 方法 及其 系统
【说明书】:

技术领域

发明涉及数据预处理方法,更具体地说是指用于解析低信息熵数据的方法及其系统。

背景技术

客户数据进入到数据路由规则引擎时,规则引擎需要通过某种方法对数据进行匹配处理对应相关服务。在对数据进行匹配处理对应相关服务的过程中,通常采用两种方案:预先配置相关规则或内置规则,通过对规则的逻辑分析以与、或、并为基础形成对照关系,基于此进行分析判断汇总相关结果。然而随着数据业务规模的逐步扩大,一般内置规则会为引擎升级产生阻碍,导致相关方案不可行,故而在大数据领域一般采用配置规则方案。

在现有配置规则方案中,相关技术注重规则之间的逻辑判断,通过各种算法与匹配规则实现。比如RETE规则引擎,该引擎分为规则编译和运行执行两部分,其推理网络是从规则集中拿出每一条规则,进行推理判断,循环执行这个规则集直至将所有规则执行完,得到结果,如图1所示,RETE网络主要分为两个部分:alpha网络和beta网络,其中,alpha网络用于过滤working memory,找出符合规则中每一个模式的集合,生成alpha memory(满足该模式的集合)。有两种类型的节点,过滤type的节点和其他条件过滤的节点;Beta网络有两种类型的节点Beta Memory和Join Node,前者主要存储Join完成后的集合。后者包含两个输入口,分别输入需要匹配的两个集合,由Join节点做合并工作传输给下一个节点。

但上述的配置规则方法在大数据场景中存在诸多问题:在针对一条数据进行多套规则匹配时,需要对规则进行遍历处理,耗时较长,效率较低;在针对多种数据与一套规则进行匹配时,无法根据业务场景区分处理,影响后续系统处理效率;在规则匹配处理时,相关技术只能单纯的将数据与规则进行简单的二元匹配,这种方式在处理低信息熵数据时,效率随熵值减少而增高。

因此,有必要设计一种用于解析低信息熵数据的方法,以解决低信息熵数据规则匹配的效率问题,高效完成数据的规则匹配,且操作方便。

发明内容

本发明的目的在于克服现有技术的缺陷,提供用于解析低信息熵数据的方法及其系统。

为实现上述目的,本发明采用以下技术方案:用于解析低信息熵数据的方法,所述方法包括:

获取来自指定入口的低信息熵数据;

采用数据特征识别规则检测所述低信息熵数据的特征;

根据所述特征获取原子化切割规则;

根据所述原子化切割规则对所述低信息熵数据进行原子化切割,获取数据原子块;

采用原子化解析规则对所述数据原子块进行运算与匹配,获取匹配结果。

其进一步技术方案为:获取来自指定入口的低信息熵数据的步骤之前,还包括:

启动规则解析器,并配置规则解析器内的基本配置组件以及延时加载组件。

其进一步技术方案为:启动规则解析器,并配置规则解析器内的基本配置组件以及延时加载组件的步骤,包括以下具体步骤:

加载并校验基本配置组件中的语法规则;

加载解析器配置并设置全局环境;

对规则解析器所要引用的工具进行IO通讯,加载符合要求的模型配置;

设置并加载数据特征识别规则;

获取原子化解析规则文件;

检测算法配置的语法规则。

其进一步技术方案为:获取原子化解析规则文件的步骤,包括以下具体步骤:

采用原子化算法获取数据原子化切割规则;

采用向量路径特征算法获取原子化解析规则;

采用向量路径算法对原子化解析规则的配置进行重构,获取规则匹配库以及原子化特征规则;

将原子化切割规则、规则匹配库以及原子化特征规则组合,生成原子化解析规则文件。

其进一步技术方案为:获取原子化解析规则文件的步骤,包括以下具体步骤:

声明数据,并获取数据点,形成原子化特征规则;

采用原子化算法获取数据原子化切割规则;

根据数据匹配规则获取运算原子集以及非运算原子集;

组合运算原子集以及延时加载组件内的算法集,生成运算集;

组合非运算原子集以及模型配置内的映射集,生成非运算集;

组合数据原子化切割规则、运算原子集、非运算原子集、运算集以及非运算集,生成原子化解析规则文件。

其进一步技术方案为:采用原子化解析规则对所述数据原子进行运算与匹配,获取匹配结果的步骤,包括以下具体步骤:

加载原子化特征规则以及数据原子块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华付信息技术有限公司,未经深圳市华付信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710601209.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top