[发明专利]一种基于数据挖掘的建模方法及系统在审

申请号：	201910528701.5	申请日：	2019-06-18
公开（公告）号：	CN110457360A	公开（公告）日：	2019-11-15
发明（设计）人：	汪尚;闫秀媛	申请（专利权）人：	北京易莱信科技有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/26
代理公司：	11611 北京聿华联合知识产权代理有限公司	代理人：	张文娟;朱绘<国际申请>=<国际公布>=
地址：	101100北京市通州区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	源数据建模目标模型数据类型角色自变量模型表达式模型构建模型类型人员技术数据构建数据挖掘用户操作复杂度模型库因变量预设分析保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于数据挖掘的建模方法及系统，该技术方案中对有建模需求的源数据进行分析，确定源数据集中所有源数据的数据类型和数据角色，然后基于源数据的数据类型和数据角色利用预设的模型库推荐目标模型的模型类型和模型表达式，进而利用各角色源数据对应的数据值计算确定目标模型的最终表达式。采用本发明的技术方案，能够克服现有的建模方案对使用人员技术要求过高，实用性不足的缺陷，本发明的建模方法面向所有需要对数据构建模型的用户，建模时用户可以自行选择模型的因变量和自变量，灵活性更高，在降低用户操作复杂度的基础上保证了模型构建结果的精确性。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于数据挖掘的建模方法及系统。

背景技术

随着各领域获取数据的技术愈加先进，各个领域都包含了海量的技术数据，但是仅根据源数据难以对领域技术的状态进行全面、系统的评估，也无法实现数据预测，这就需要采取某些手段以源数据为基础构建相应的模型，通过化繁为简以加强对数据资源的分析深度，形成比较完善的数据分析手段。例如医学研究领域，历史的数据资源丰富，但是面对原始的医疗数据却无法获取可靠的借鉴依据，并不能对各类病患的优化治疗提供支持，这种情况下就需要基于原始的历史医疗数据进行数据挖掘，构建科学合理的模型。

然而，在实际的数据挖掘技术中，要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型，现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练，实现对应模型的选择和构建，尤其是具有多个自变量的模型，现有的技术手段无法直接根据在未知模型类型的情况下实现模型的构建，且现有技术若要确保构建的模型有效，须执行者对建模数据和模型特征等知识具有相当程度的了解，实用性有很大的局限。

发明内容

为解决上述问题，本发明提供了一种基于数据挖掘的建模方法，在一个实施例中，所述方法包括：

步骤S1、获取有建模需求的源数据集；

步骤S2、对源数据集进行分析，确定源数据集中所有源数据的数据类型和数据角色；

步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式；

步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。

优选地，所述数据角色包括：因变量、自变量和次要数据。

优选地，在所述步骤S2中，具体包括：

对源数据集进行分析，确定源数据集中所有源数据的数据类型；

根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据；

若包含，则分别选取角色为因变量的源数据和角色为自变量的源数据；若不包含，则选取角色为自变量的源数据。

优选地，在所述步骤S4中，按照如下步骤计算获取各目标模型的最终表达式：