[发明专利]一种方便数据分析人员使用的集成机器学习的方法及系统在审
申请号: | 201711393846.6 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108363714A | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 李雪鹏;翟昶;于上上;冯博;毛智愚 | 申请(专利权)人: | 北京至信普林科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06N99/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及机器学习技术领域,特别涉及一种方便数据分析人员使用的集成机器学习的方法及系统。所述方法包括以下步骤:(1)数据探索;(2)数据清洗;(3)特征提取;(4)特征选择;(5)样本采样;(6)模型训练;(7)模型优化;(8)模型融合;(9)模型可解释性;(10)自然语言处理。所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块。本发明为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在对业务的理解和对模型应用上,深度理解业务,更好的实现业务人员对于模型的要求。 | ||
搜索关键词: | 机器学习 集成机器 人员使用 数据分析 建模 自然语言处理模块 机器学习技术 模型处理模块 数据处理模块 特征处理模块 自然语言处理 模型融合 模型训练 模型应用 模型优化 数据清洗 数据探索 特征提取 特征选择 解释性 采样 算法 样本 工程师 爱好 学习 老师 学生 统一 | ||
【主权项】:
1.一种方便数据分析人员使用的集成机器学习的方法,其特征在于:所述方法包括以下步骤:(1)数据探索:针对原始数据表,输出各个字段的情况;指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果;针对原始数据表,提供离群样本检测模板,输出潜在的离群样本点;针对原始数据表,提供二维组合特征探索分析模板,输出潜在的二维特征组合及组合方式;(2)数据清洗:针对原始数据表,提供常规的数据清洗模板;(3)特征提取:针对含主键的数据集,含主键的时间序列,蕴含时间先后的记录;(4)特征选择:使用特征向量和目标值共同决定保留最重要的特征维度。(5)样本采样:针对原始数据表,按照一定正负样本比例,进行降采样或者过采样或按照主键进行采样;(6)模型训练:单一模型的训练及测试过程模板,输出训练时长、各项评估指标的值、PR曲线、ROC曲线、重要特征分析、过拟合判断,模型生成报告,输出进度条并预估时间;(7)模型优化:对多个模型、多个参数列表,进行训练,针对指定的评估指标,选择出最优的模型参数;(8)模型融合:提供不同样本子集、不同特征集合训练的模型融合工具包;(9)模型可解释性:通过模型结果的可视化分析、模型结果中组合特征分析等,输出模型解释性信息;(10)自然语言处理:对语言文字进行分析,统计词频,分析语义。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京至信普林科技有限公司,未经北京至信普林科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711393846.6/,转载请声明来源钻瓜专利网。
- 上一篇:视频图像信息解析装置、系统及方法
- 下一篇:一种车牌图片管理方法和装置