[发明专利]风控模型建立方法、装置、计算机设备及存储介质无效
申请号: | 201910608839.6 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110503566A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 王进;刘行行 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06K9/62 |
代理公司: | 11015 北京英特普罗知识产权代理有限公司 | 代理人: | 林彦之<国际申请>=<国际公布>=<进入 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 风控 计算机设备 存储介质 模型建立 目标变量 筛选规则 有效变量 原始变量 筛选 预设 变量因子 开发周期 冗余变量 冗余操作 无效变量 剔除 保证 | ||
本发明公开了一种风控模型建立方法、装置、计算机设备及存储介质,基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;根据所述目标变量因子建立风控模型。本发明提供的风控模型建立方法、装置、计算机设备及存储介质,能够实现将原始变量因子进行筛选,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
技术领域
本发明涉及信息技术领域,尤其涉及一种风控模型建立方法、装置、计算机设备及存储介质。
背景技术
随着社会经济的不断发展,人们越来越意识到保险的重要性。保险是指用户根据合同约定向保险公司支付保险费用,保险公司对于合同约定的可能发生的风险所造成的损失承担赔偿保险金的行为。因此,保险公司对保险业务的风险控制极为重要,风险控制主要有两个重要部分:一、核保/准入,判断是否承保;二、核赔,判断理赔是否符合保险保障条款。
目前,风险控制主要是基于风控模型进行的,而风控模型是基于风险因子建立的,为了提高风控模型的准确性,收集的风险因子非常细致全面,以核保风控模型为例,总共收集了2200多个风险因子。然而,要处理如此多的风险因子,对硬件资源的需求大,且风控模型的训练及开发周期长。
发明内容
有鉴于此,本发明提出一种风控模型建立方法、装置、计算机设备及存储介质,有效缩短风控模型的训练及开发周期,且能够保证模型的可靠性。
首先,为实现上述目的,本发明提出一种风控模型建立方法,该方法包括步骤:
基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
根据所述目标变量因子建立风控模型。
进一步地,所述预设的第一筛选规则基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率设置。
进一步地,所述预设的第二筛选规则基于变量因子的相关性设置。
进一步地,所述根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子的步骤包括:
计算所述有效变量因子间的相似度;
根据所述相似度将所述有效变量因子分成若干组;及
从每一组有效变量因子中选取至少一个目标变量因子。
进一步地,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算各组中每一有效变量因子的重要度;
从每一组中选取重要度最高的有效变量因子作为目标变量因子。
进一步地,所述根据所述相似度将所述有效变量因子分成若干组的步骤包括:
从所述有效变量因子中选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及
将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的有效变量因子组成非相关组。
进一步地,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算相关组各组中每一有效变量因子的重要度;及
从相关组的每一组中选取重要度最高的有效变量因子作为目标变量因子,选取非相关组中的全部有效变量因子作为目标变量因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910608839.6/2.html,转载请声明来源钻瓜专利网。