[发明专利]用于解析低信息熵数据的方法及其系统在审
申请号: | 201710601209.7 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107436935A | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 汤红;黄军文;李文强;张波;林晓斌 | 申请(专利权)人: | 深圳市华付信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/04 |
代理公司: | 深圳市精英专利事务所44242 | 代理人: | 冯筠 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 解析 信息 数据 方法 及其 系统 | ||
技术领域
本发明涉及数据预处理方法,更具体地说是指用于解析低信息熵数据的方法及其系统。
背景技术
客户数据进入到数据路由规则引擎时,规则引擎需要通过某种方法对数据进行匹配处理对应相关服务。在对数据进行匹配处理对应相关服务的过程中,通常采用两种方案:预先配置相关规则或内置规则,通过对规则的逻辑分析以与、或、并为基础形成对照关系,基于此进行分析判断汇总相关结果。然而随着数据业务规模的逐步扩大,一般内置规则会为引擎升级产生阻碍,导致相关方案不可行,故而在大数据领域一般采用配置规则方案。
在现有配置规则方案中,相关技术注重规则之间的逻辑判断,通过各种算法与匹配规则实现。比如RETE规则引擎,该引擎分为规则编译和运行执行两部分,其推理网络是从规则集中拿出每一条规则,进行推理判断,循环执行这个规则集直至将所有规则执行完,得到结果,如图1所示,RETE网络主要分为两个部分:alpha网络和beta网络,其中,alpha网络用于过滤working memory,找出符合规则中每一个模式的集合,生成alpha memory(满足该模式的集合)。有两种类型的节点,过滤type的节点和其他条件过滤的节点;Beta网络有两种类型的节点Beta Memory和Join Node,前者主要存储Join完成后的集合。后者包含两个输入口,分别输入需要匹配的两个集合,由Join节点做合并工作传输给下一个节点。
但上述的配置规则方法在大数据场景中存在诸多问题:在针对一条数据进行多套规则匹配时,需要对规则进行遍历处理,耗时较长,效率较低;在针对多种数据与一套规则进行匹配时,无法根据业务场景区分处理,影响后续系统处理效率;在规则匹配处理时,相关技术只能单纯的将数据与规则进行简单的二元匹配,这种方式在处理低信息熵数据时,效率随熵值减少而增高。
因此,有必要设计一种用于解析低信息熵数据的方法,以解决低信息熵数据规则匹配的效率问题,高效完成数据的规则匹配,且操作方便。
发明内容
本发明的目的在于克服现有技术的缺陷,提供用于解析低信息熵数据的方法及其系统。
为实现上述目的,本发明采用以下技术方案:用于解析低信息熵数据的方法,所述方法包括:
获取来自指定入口的低信息熵数据;
采用数据特征识别规则检测所述低信息熵数据的特征;
根据所述特征获取原子化切割规则;
根据所述原子化切割规则对所述低信息熵数据进行原子化切割,获取数据原子块;
采用原子化解析规则对所述数据原子块进行运算与匹配,获取匹配结果。
其进一步技术方案为:获取来自指定入口的低信息熵数据的步骤之前,还包括:
启动规则解析器,并配置规则解析器内的基本配置组件以及延时加载组件。
其进一步技术方案为:启动规则解析器,并配置规则解析器内的基本配置组件以及延时加载组件的步骤,包括以下具体步骤:
加载并校验基本配置组件中的语法规则;
加载解析器配置并设置全局环境;
对规则解析器所要引用的工具进行IO通讯,加载符合要求的模型配置;
设置并加载数据特征识别规则;
获取原子化解析规则文件;
检测算法配置的语法规则。
其进一步技术方案为:获取原子化解析规则文件的步骤,包括以下具体步骤:
采用原子化算法获取数据原子化切割规则;
采用向量路径特征算法获取原子化解析规则;
采用向量路径算法对原子化解析规则的配置进行重构,获取规则匹配库以及原子化特征规则;
将原子化切割规则、规则匹配库以及原子化特征规则组合,生成原子化解析规则文件。
其进一步技术方案为:获取原子化解析规则文件的步骤,包括以下具体步骤:
声明数据,并获取数据点,形成原子化特征规则;
采用原子化算法获取数据原子化切割规则;
根据数据匹配规则获取运算原子集以及非运算原子集;
组合运算原子集以及延时加载组件内的算法集,生成运算集;
组合非运算原子集以及模型配置内的映射集,生成非运算集;
组合数据原子化切割规则、运算原子集、非运算原子集、运算集以及非运算集,生成原子化解析规则文件。
其进一步技术方案为:采用原子化解析规则对所述数据原子进行运算与匹配,获取匹配结果的步骤,包括以下具体步骤:
加载原子化特征规则以及数据原子块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华付信息技术有限公司,未经深圳市华付信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710601209.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于使用的油画展示架
- 下一篇:一种新型油画展示架
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置