[发明专利]用于管理含有具有缺失值的记录的数据库的方法和系统有效
申请号: | 201310445615.0 | 申请日: | 2013-09-26 |
公开(公告)号: | CN104516879B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 黎文宪;程羽 | 申请(专利权)人: | SAP欧洲公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 德国瓦*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 管理 含有 具有 缺失 记录 数据库 方法 系统 | ||
提供一种方法,所述方法包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后记录包括具有与目标记录中的缺失值相同字段的值的记录,基于与划分后记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测值。
技术领域
实施例涉及管理含有具有缺失值(missing value)的记录的数据库。更具体地,实施例涉及输入用于记录中的缺失值的值。
背景技术
在数据库(或其他数据存储,例如XML文件)的任一数据集(例如,数据表或查询结果)中,存在含有具有缺失值的记录(或记录集)的条目的可能性。例如,因为在数据收集的时间该值未知,所以收集的数据可以是缺失值。例如,在基于数据的分析或研究中,缺失数据影响数据的质量。
作为一个例子,个人健康记录(PHR)数据库在促进医学和灾害研究中扮演重要角色,并且提供用于个人保健的分析服务。例如,PHR可以根据来自数据库的历史数据来提供个人的健康分析。在各种类型的健康促进机构中,历史数据可以为顾问和指导员提供支持。此外,可以通过PHR分析来安排和提醒通过健身巡回医疗带来的健康养护周期。此外,数据可用于创建用于推荐最佳健身计划或健康每日菜单的预测模型。通常,可以基于三个主要的方法来收集PHR数据:来自个人体重计的每日健康记录,来自健身中心的顾客记录以及来自大学和研究中心的统计数据库。然而,缺失值发生在PHR数据库中,在收集用于所有人的完整数据方面可能存在一些困难。
在传统的缺失值估算(imputation)方法中,具有缺失值的选定记录可以表示为全部其他相似记录的线性组合。换句话说,这些算法将数据集中的局部相似结构用于缺失值估算。典型地,与包含缺失值的记录呈现高度相关的记录的子集被用于估算缺失值。大部分方法还假定,彼此独立地考虑全部记录的特征,其大部分已经应用在微阵列数据分析中。
然而,在一些数据库(或数据集)中,一些数据特性可能线性互相关,并且数据可以基于该关系被分类。例如,可以通过PHR数据的特征将它们分类成为两个组。一组可以是度量数据,诸如身高、体重、验血结果;另一组可以从诸如疲劳、食欲之类的调查表生成并量化。因此,特征的类型可以不同地影响所述线性组合。当估算数据库中的缺失值时传统的缺失值估算方法不考虑互相关数据。因此,当估算数据库中的缺失值时存在对利用互相关数据的方法和系统的需要。
发明内容
一个实施例包括一种方法。所述方法包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录,基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测值。
另一实施例包括一种具有存储在其上的计算机可执行程序码的非瞬时计算机可读存储介质,当在计算机系统上运行该计算机可执行程序码时使得计算机系统执行如下步骤。所述步骤包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录,基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测值。
还一实施例包括一种装置。所述装置包括:值预测模块,被配置成从数据集中选择包括缺失值的目标记录;并且被配置成将该目标记录的缺失值设置为预测值。所述装置包括:模型生成模块,被配置成将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录;并且被配置成基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系来预测缺失值。
附图说明
从此处以下给出的详细说明和附图中将更全面地理解示例实施例,其中通过相似的参考标号表示相似的元件,仅仅通过例示的方式给出详细说明和附图,并且因此不限制示例实施例,并且其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SAP欧洲公司,未经SAP欧洲公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310445615.0/2.html,转载请声明来源钻瓜专利网。