[发明专利]一种记录分组方法和装置在审
申请号: | 201310341709.3 | 申请日: | 2013-07-30 |
公开(公告)号: | CN104268136A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 边旭;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市南山区高新区中*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 记录 分组 方法 装置 | ||
技术领域
本申请涉及数据匹配技术领域,特别是涉及一种记录分组方法和装置。
背景技术
在企业的生产活动中,会产生大量的业务数据,事实上企业很难确保其所积累数据的质量,其原因是多种多样的,如:录入错误、完整性约束缺失、信息的多种描述方式等,更复杂的是,相互独立的数据源不仅表述相同实体时使用的值不相同,甚至存储结构、关于数据的基本假设也不相同。企业的生产活动又是以其数据为基础,大到市场分析、决策,小到业务查询,都是在业务数据之上的操作。显然企业所累积数据的质量没有保障,其所做操作也将无法保障。为了达到企业对业务数据去重的目的,需要发明一种高效、准确、自动的匹配方法,快速准确地发现描述同一实体的不同记录。
了解决上述应用中的问题,现有技术提出一种记录匹配方法,主要包括:首先对标准化记录集合进行分组获得记录对集合;然后将记录对集合经过比较和决策算法获得匹配记录对。
在这种记录匹配方法中,分组过程中需要通过预置的算法将原始记录集合形成记录对集合。也既是分组过程依赖的算法是预先设置在底层的,无法更改,对用户来说无法针对不同行业的记录集合进行优化的算法设置,使用不便,也可能降低分组效率。
发明内容
本申请所要解决的技术问题是提供一种记录分组方法能够根据用户输入的分组算法对记录集合进行分组计算获得记录对集合。
相应的,本申请还提供了种记录分组装置。
为了解决上述问题,本申请公开了一种记录分组方法,包括:
获取原始记录集合;
获取用户通过脚本编译输入的逻辑命令;
根据所述逻辑命令利用原始记录集合产生中间记录集合;
将所述中间记录对集合通过记录对生成算法生成最终记录对集合。
进一步,所述获取原始记录集合包括:
获取经过标准化处理过的原始记录集合。
进一步,所述获取用户通过脚本编译输入的逻辑命令包括:
获取用户通过条件表达式的形式表述的逻辑命令;所述条件表达式包括但不限于四则运算、比较运算、布尔运算以及字符串函数。
进一步,所述获取用户通过脚本编译输入的逻辑命令包括:
获取用户通过预置MRL语言输入的逻辑命令。
进一步,所述将中间记录对集合通过记录对生成算法生成最终记录对集合包括:
将所述中间记录对集合通过集合运算或Block算法或SortedWindow算法生成最终记录对集合。
本申请还提供了一种记录分组装置,包括:
记录获取模块,用于获取原始记录集合;
命令获取模块,用于获取用户通过脚本编译输入的逻辑命令;
中间记录集合生成模块,用于根据所述逻辑命令利用原始记录集合产生中间记录集合;
记录对生成模块,用于将所述中间记录对集合通过记录对生成算法生成最终记录对集合。
进一步,所述记录获取模块还用于:
获取经过标准化处理过的原始记录集合。
进一步,所述命令获取模块还用于:
获取用户通过条件表达式的形式表述的逻辑命令;所述条件表达式包括但不限于四则运算、比较运算、布尔运算以及字符串函数。
进一步,所述命令获取模块还用于:
获取用户通过预置MRL语言输入的逻辑命令。
进一步,所述记录对生成模块还用于:
将所述中间记录对集合通过集合运算或Block算法或SortedWindow算法生成最终记录对集合。
与现有技术相比,本申请包括以下优点:通过MRL语言允许用户输入更适合当前原始记录集合的逻辑命令,根据该逻辑命令更快的对原始记录集合进行分组,提高了分组效率。
附图说明
图1是本发明一种记录分组方法一实施例的流程示意图;
图2是本发明一种记录分组方法一实施例的逻辑示意图;
图3是本发明一种记录分组装置一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种记录分组方法,包括:
步骤S101、获取原始记录集合;
进一步,所述获取原始记录集合可以获取经过标准化处理过的原始记录集合。
本发明实施例中,最初输入的记录集合可以通过特定数据标准化处理流程,形成标准化的原始记录集合,以方便后续分组处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310341709.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据搜索的装置及其方法
- 下一篇:消息回复的方法及装置