[发明专利]数据处理方法和装置有效
申请号: | 201110409434.3 | 申请日: | 2011-11-30 |
公开(公告)号: | CN103136440A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 孙行智;俞益琴;徐林昊;滕晓菲;潘越;沈炜嘉;周宇辰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明的各实施方式涉及数据处理,更具体地,涉及计算海量数据中的相关性以生成研究课题的方法、装置和相关计算机程序产品。
背景技术
在不同的技术领域中,研究课题涉及的因素是纷繁复杂的。例如,对于金属锌的冶炼技术而言,通常可以采用产率、冶炼回收率、水消耗量、电消耗量、硫酸消耗等诸多因素来评价一个冶炼方案的优劣。在本说明书中,研究课题可以描述各种因素对一项事务处理(例如,金属锌的冶炼)过程的影响。在冶炼过程期间还涉及其他因素,诸如,冶炼方法、温度、压强、反应时间、原料杂质含量、设备使用时间,等等。如何确定对于提高锌冶炼整体效率相对重要的因素,并且建立研究课题来研究这些相对重要的因素与锌冶炼效率之间的关联性,这需要全面地采集多种因素并分析各个因素之间的关系,这是一项费时费力的工作。
应当理解,建立一项研究课题的前提是该研究课题所依据的最初研究方向是正确的。例如,锌冶炼可能会受到成百甚至数千个因素的影响,然而如何确定各个因素与锌冶炼产率的相关性是一项复杂的过程。现有解决方案通常是基于人工分析样本数据(例如,一次冶炼过程中的各项因素的数值就是一个样本数据),由经验丰富的专家基于以往的经验并依据采集的样本数据来人工建立研究课题:例如研究温度对于产率的影响。
现有技术的缺陷在于:不能准确地分析各因素之间的关联关系,尤其是当待分析因素众多(例如,达到数千甚至上万)时,基于人工处理根本不可能逐项分析各个因素;此外,由于人工处理能力的限制,对于样本数据的数量选取也存在限制;另外,由于不能保证分析的准确性,在研究课题中可能会漏掉重要的因素,或者将原本无关或相关性较小的因素误认为是重要因素而加入研究课题。
例如,选取5次冶炼过程中各项因素的数值作为样本数据,可能会发现“设备使用时间”对于冶炼效率具有重大影响,如果因此建立了一项研究课题专门研究“设备使用时间”与“产率”关系,则可能由于“设备使用时间”实际上与“产率”的关系甚微,而造成在此项研究课题中投入大量资金却毫无收获的局面。造成这一错误的原因可能是由于忽略了某项重要因素或者是由于其他因素的干扰。一旦错误地建立了不切实际的研究课题,在后期将会造成大量人力、物力和时间上的巨大损失。
又例如,对于临床数据的研究分析领域涉及的因素更为复杂,仅以糖尿病相关的临床数据为例,这些因素可以包括:平均每日胰岛素用量、最后胰岛素用量、胰岛素的类型、患者年龄、性别、民族、学历、职业,等等数据。这里,每个患者的临床数据是一个样本数据,为了保证准确性通常需要采集上千甚至更多数量的因素,并分析上万甚至更多位患者的临床数据。可以设想,如果采用一张包括行和列的普通二维表格存储数据,以每一列代表一个因素,以每一行代表一个患者的样本数据,那么基于现有的人工方法根本不可能正确分析包括数千列和数万行的数据表。
发明内容
在建立研究课题时,为了综合考虑各项因素之间的相关性,期望尽可能选取更多的样本数据,然而这一初衷与现有技术的处理能力相悖。这就迫切需要一种准确、有效的方法来分析和处理海量数据,以便准确、高效地获得各因素对于整个处理过程的影响,并建立符合客观规律的研究课题。
因此,面对人工处理无法识别海量数据中的相关性的缺陷,如何发现事务处理过程中所涉及诸多因素之间的相关性,以及如何生成候选研究课题供研究人员决策,成为一项亟待解决的问题。为此,本发明的各实施方式提供了一种用于处理海量数据的数据处理的方法、装置和计算机程序产品。
在一个实施方式中,提供了一种数据处理方法,包括:计算数据集中的多个属性之间的相关性,属性是在事务处理过程中涉及的因素;利用多个属性以及多个属性之间的相关性生成关系图;以及从关系图提取子图以表示研究课题,其中研究课题描述因素对事务处理过程的影响。
在一个实施方式中,属性的分类包括:评测指标、控制因素和干扰因素;以及属性的数据类型至少包括以下之一:数值型、名义型以及序列型。
在一个实施方式中,提供了一种数据处理装置,包括:用于计算数据集中的多个属性之间的相关性的装置,属性是在事务处理过程中涉及的因素;用于利用多个属性以及多个属性之间的相关性生成关系图的装置;以及用于从关系图提取子图以表示研究课题的装置,其中研究课题描述因素对事务处理过程的影响。
在一个实施方式中,属性的分类包括:评测指标、控制因素和干扰因素;以及属性的数据类型至少包括以下之一:数值型、名义型以及序列型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110409434.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用