[发明专利]基于机器学习的车险数据处理方法、车险欺诈识别方法及装置在审

申请号：	201611130098.8	申请日：	2016-12-09
公开（公告）号：	CN106600423A	公开（公告）日：	2017-04-26
发明（设计）人：	宋骁程;谭浩宇;肖文晗	申请（专利权）人：	云数信息科技（深圳）有限公司
主分类号：	G06Q40/08	分类号：	G06Q40/08
代理公司：	广州三环专利代理有限公司44202	代理人：	麦小婵,郝传鑫
地址：	518000 广东省深圳市南山区粤***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习车险数据处理方法欺诈识别装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及欺诈识别领域，具体地，涉及一种基于机器学习的车险数据处理方法、车险欺诈识别方法及装置。

背景技术

近年来，国内保险公司车险业务保费总收入逐年提升，但盈利状况堪忧。保监会统计显示，车险索赔中约有20％的案例属于欺诈。车险经营之所以一直处于亏损边沿，一个很重要的原因就在于车险欺诈的泛滥。欺诈被喻为保险业无声的巨灾，无时无刻不在吞噬着保险业微薄的盈利空间，使保险公司遭受无辜的损失。因此，反欺诈系统的推行对于促进保险业的健康发展和提升保险公司盈利能力都有重大意义。

保险公司处理车险索赔的传统流程中，使用人工对每个索赔案例进行反欺诈调查；而近年来，国内外提出智能识别欺诈案例的反欺诈系统，可以智能识别出众多索赔案中的高欺诈风险的案例，针对高欺诈风险的案例进行深入调查。关于智能识别欺诈案例的反欺诈系统的实证研究日益丰富，主要是利用回归分析及其他统计方法，结合经验积累，找出车险欺诈的关键识别因子，并将因子按识别能力的贡献赋予不同的权重，代入一定的回归模型，进行欺诈的识别分析；或者建立已知欺诈标签的数据集，采用机器学习监督式学习算法训练欺诈检测分类器，分类器可以有效地对全新数据进行欺诈检测。

发明人在实施本发明的过程中，发现上述现有技术有其局限性。车险欺诈者往往对车险规则了解深入，欺诈模式多样，专业欺诈者对反欺诈规则也会有深入的了解，可以有效避开基于经验和规则的反欺诈检测，单一的分类器也无法应对繁多而常变的欺诈模式。

发明内容

本发明的目的在于提出一种基于机器学习的车险数据处理方法、车险欺诈识别方法及装置，其能快速识别车险欺诈，避免保险公司无辜遭受损失，提高索赔案处理的效率，同时具有较高的识别率和精确度，更好地应对复杂多变的欺诈模式。

为了实现上述目的，本发明提供一种基于机器学习的车险数据处理方法，包括：

根据多项车险案例的原始数据，获得建模数据列表；其中，所述建模数据列表包括多项车险案例的建模数据，每一项建模数据包括所述车险案例的N个特征变量以及欺诈认定结果；

以所述建模数据列表为样本，应用第一类分类器建立M1个不同的子模型；

以所述建模数据列表为样本，应用第二类分类器建立M2个不同的子模型；

融合所述M1个子模型和所述M2个子模型，建立识别车险欺诈的数据模型；其中，按照所述识别车险欺诈的数据模型，可将待识别的车险案例的原始数据转化为欺诈概率，以判定所述待识别的车险案例是否为欺诈案例。

实施本发明提供的基于机器学习的车险数据处理方法，具有如下有益效果：

本发明提供的基于机器学习的车险数据处理方法，采用了多种机器学习模型融合，可配置具有高识别率和精确度的识别车险欺诈的数据模型，较之现有技术的单一模型，能更好地应对车险数据中复杂多变的欺诈模式。按照本发明提供的车险数据处理方法，可准确判定众多索赔案中的欺诈案例，及时向保险公司发出警报，避免保险公司无辜遭受损失，而被判定为非欺诈的案例即可立即进入索赔理算程序，提高索赔案处理的效率，降低保险公司用于调查的资源、人力成本。

进一步地，所述第一类分类器为随机森林分类器，所述第二类分类器为迭代决策树分类器；

所述融合所述M1个子模型和所述M2个子模型，建立所述识别车险欺诈的数据模型，具体包括：

以所述建模数据列表为样本，应用贝叶斯分类器建立M3个不同的子模型；

构建以所述M1个子模型、M2个子模型和M3个子模型的投票结果作为输出结果的数据模型，作为所述识别车险欺诈的数据模型；其中，所述投票结果为判定车险案例为欺诈案例的票数占总票数的比例。

在进一步方案中，以投票的方式融合随机森林分类器、迭代决策树分类器和贝叶斯分类器。随机森林能在相当短的时间内对大型数据源做出可行且效果良好的结果，迭代决策树分类器有着出众的准确率且不容易陷入过拟合，贝叶斯分类器有着稳定的分类效率，算法简单。以投票的方式融合这三种分类器，识别车险欺诈准确率更稳定，效率更高。

进一步地，所述以所述建模数据列表为样本，应用第一类分类器建立M1个不同的子模型，包括：

以所述建模数据列表为样本，将所述第一类分类器中的预先指定的一个参数配置为f(x)；

以L种不同的数值组合配置所述第一类分类器中的其余参数；

根据其余参数的L种不同的数值组合，应用第一分类器分别建立L个候选子模型；

以交叉校验法分别评估所述L个候选子模型的预测准确率；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云数信息科技（深圳）有限公司，未经云数信息科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611130098.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q40-00 金融；保险；税务策略；公司或所得税的处理
G06Q40-02 .银行业，例如，利息计算、信贷审批、抵押、家庭银行或网上银行
G06Q40-04 .交易，例如，股票、商品、金融衍生工具或货币兑换
G06Q40-06 .投资，例如，金融工具、资产组合管理或者基金管理
G06Q40-08 .保险，例如，风险分析或养老金

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于机器学习的车险数据处理方法、车险欺诈识别方法及装置在审

专利文献下载