[发明专利]一种基于数据挖掘的建模方法及系统在审
申请号: | 201910528701.5 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110457360A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 汪尚;闫秀媛 | 申请(专利权)人: | 北京易莱信科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/26 |
代理公司: | 11611 北京聿华联合知识产权代理有限公司 | 代理人: | 张文娟;朱绘<国际申请>=<国际公布>= |
地址: | 101100北京市通州区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 源数据 建模 目标模型 数据类型 角色 自变量 模型表达式 模型构建 模型类型 人员技术 数据构建 数据挖掘 用户操作 复杂度 模型库 因变量 预设 分析 保证 | ||
本发明提供了一种基于数据挖掘的建模方法及系统,该技术方案中对有建模需求的源数据进行分析,确定源数据集中所有源数据的数据类型和数据角色,然后基于源数据的数据类型和数据角色利用预设的模型库推荐目标模型的模型类型和模型表达式,进而利用各角色源数据对应的数据值计算确定目标模型的最终表达式。采用本发明的技术方案,能够克服现有的建模方案对使用人员技术要求过高,实用性不足的缺陷,本发明的建模方法面向所有需要对数据构建模型的用户,建模时用户可以自行选择模型的因变量和自变量,灵活性更高,在降低用户操作复杂度的基础上保证了模型构建结果的精确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数据挖掘的建模方法及系统。
背景技术
随着各领域获取数据的技术愈加先进,各个领域都包含了海量的技术数据,但是仅根据源数据难以对领域技术的状态进行全面、系统的评估,也无法实现数据预测,这就需要采取某些手段以源数据为基础构建相应的模型,通过化繁为简以加强对数据资源的分析深度,形成比较完善的数据分析手段。例如医学研究领域,历史的数据资源丰富,但是面对原始的医疗数据却无法获取可靠的借鉴依据,并不能对各类病患的优化治疗提供支持,这种情况下就需要基于原始的历史医疗数据进行数据挖掘,构建科学合理的模型。
然而,在实际的数据挖掘技术中,要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型,现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的选择和构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据在未知模型类型的情况下实现模型的构建,且现有技术若要确保构建的模型有效,须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性有很大的局限。
发明内容
为解决上述问题,本发明提供了一种基于数据挖掘的建模方法,在一个实施例中,所述方法包括:
步骤S1、获取有建模需求的源数据集;
步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。
优选地,所述数据角色包括:因变量、自变量和次要数据。
优选地,在所述步骤S2中,具体包括:
对源数据集进行分析,确定源数据集中所有源数据的数据类型;
根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;
若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。
优选地,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1
其中,a∈[1,n],y0=x1;
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易莱信科技有限公司,未经北京易莱信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910528701.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关联性分析方法
- 下一篇:特征数据获取方法、装置、计算机设备和存储介质