[发明专利]数据分群、分段、以及并行化有效
申请号: | 201810151609.7 | 申请日: | 2012-11-15 |
公开(公告)号: | CN108388632B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 阿伦·安德森 | 申请(专利权)人: | 起元科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245;G06F16/2458 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;张浴月 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分群 分段 以及 并行 | ||
本发明公开了一种数据分群的方法,包括:通过第一处理实体将一记录组分区成多个记录子组;以及通过各个不同的接收方处理实体处理所述记录组的不同子组,并将结果存储在每个所述接收方处理实体可访问的数据存储部中,每个接收方处理实体的处理包括:基于确定所述记录中一个或多个字段的一个或多个值与由该接收方处理实体维护的本地参考信息内的条目之间或者与由任一其他所述接收方处理实体提供的所述数据存储部内的条目之间是否存在近似匹配来对所述子组中的每个记录执行操作,以及基于由该接收方处理实体维护的所述本地参考信息来更新所述数据存储部。
本申请是申请日为2012年11月15日、申请号为201280067076.5、发明名称为“数据分群、分段、以及并行化”申请的分案申请。
相关申请的交叉引用
本申请要求2011年11月15日所提交美国专利申请第61/560257号和2012年6月15日所提交美国专利申请第61/660259号的优先权,二者中每个都通过引用合并于此。
背景技术
本说明书涉及数据分群、分段、以及并行化。
数据分群是这样一种方法,通过该方法将大体类似的信息用共享的标识符来标注,从而可使该信息后续在被处理时就像这些信息已经一起汇聚在同一位置那样。该信息可包括各种类型的信息,例如,诸如财务数据或医保记录等等。每个群(在多个群组成的一组中)包括已经被确定为符合一些类似性标准的多个数据单元(例如,文档、数据库记录、或其他数据对象)。一些技术属于“离线”技术,其将数据单元按批处理以生成群或添加至已有群。一些技术属于“在线”技术,其对数据单元按照接收这些数据单元的方式进行增量式处理。群可以是分级的,此时一个级别上的给定群自身在另一级别上被划分成多个群。在一些情况下,群对应于一个分区的数据单元,其中每个数据单元恰好是其中一个群,而在一些情况下,群可与属于一个以上群的其中一员的数据单元叠合。
发明内容
在一个方案中,一般而言,一种方法包括:通过第一处理实体来处理第一原记录组以生成第二记录组,该第二记录组包括所述原记录以及每个原记录的一个或多个副本,每个原记录包括一个或多个字段。至少一些所述原记录中的每一个的所述处理包括:生成所述原记录的至少一个副本,以及将第一分段值与所述原记录关联,并将第二分段值与所述副本关联,其中所述第一分段值对应于所述原记录中各字段的一个或多个数据值的第一部分,而所述第二分段值对应于所述原记录中各字段的所述一个或多个数据值的第二部分,该第二部分不同于该第一部分。该方法还包括基于与所述第二组中的记录关联的所述分段值将所述第二记录组在多个接收方处理实体之中进行分区,并且在每个接收方处理实体处,基于该接收方处理实体处接收的记录的一个或多个数据值执行操作以生成结果。
这些方案可包括以下特征中的一个或多个。
所述第一分段值对应于来自第一字段的第一数据值的字符的第一序列,该第一序列取自所述第一数据值中所述字符的第一位置组,而所述第二分段值对应于来自所述第一数据值的字符的第二序列,该第二序列取自所述第一数据值中所述字符的第二位置组。
所述第一位置组与所述第二位置组是不重叠的。
所述第一位置组是相对于所述数据值第一个字符的偶数位置,而所述第二位置组是相对于所述数据值第一个字符的奇数位置。
将分段值与记录关联包括将所述关联的分段值写入所述记录的新字段中。
基于该接收方处理实体处接收的记录的一个或多个数据值执行操作包括确定存在于第一记录的一个或多个数据值中的字符串与存在于至少第二记录的一个或多个数据值中的字符串之间的匹配。
所述匹配为近似匹配。
所述近似匹配允许所述字符串匹配得不同处多达一指定编辑距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元科技有限公司,未经起元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810151609.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置