[发明专利]基于二分类模型的多分类方法、装置、电子设备及介质在审
申请号: | 202110318230.2 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112801222A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 庞宇嘉;彭琛;汪伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 模型 方法 装置 电子设备 介质 | ||
本发明涉及智能决策技术,揭露了一种基于二分类模型的多分类方法,包括:对训练数据集及验证数据集进行二分类标注,利用训练数据集构建并训练二分类模型,并根据验证数据集进行验证调整,得到标准二分类模型,将待处理数据集输入标准二分类模型中,得到二分类结果,对标准二分类模型进行解析,得到贡献度矩阵,按照多分类标注对贡献度矩阵进行聚合处理,得到贡献度聚合矩阵,并根据贡献度聚合矩阵及二分类结果,得到多分类结果。此外,本发明还涉及区块链技术,所述二分类结果可存储于区块链的节点。本发明还提出一种基于二分类模型的多分类装置、电子设备以及计算机可读存储介质。本发明可以解决利用多分类模型进行多分类具有不稳定性的问题。
技术领域
本发明涉及智能决策技术领域,尤其涉及一种基于二分类模型的多分类方法、装置、电子设备及介质。
背景技术
分类模型是常见的机器学习模型,用于通过建模,预测样本所属类型。对于小样本或者分类样本严重不平衡,一般只能进行二分类模型的训练。尽管二分类模型能够取得稳定准确的效果,但是模型预测结果却显得单薄。以财务粉饰为例,通过二分类模型对企业的财务数据造假进行预测时,得到了一个90分的预警,但这样的预测结果只知道这家企业可能造假了,却无法知道究竟是从资本结构还是盈利能力上进行了造假。因此,二分类模型并不能适用所有的应用场景。然而,小样本或者分类样本严重不平衡时,比如好样本和坏样本的比例超过100:1,如果训练多分类模型,使得本就稀少的坏样本在分类之后就变得更少,有的类别可能只有几个样本,从而导致训练得到的多分类模型结果的不稳定性。
发明内容
本发明提供一种基于二分类模型的多分类方法、装置及计算机可读存储介质,其主要目的在于解决利用多分类模型进行多分类具有不稳定性的问题。
为实现上述目的,本发明提供的一种基于二分类模型的多分类方法,包括:
从原始数据集中抽取出训练数据集和验证数据集,并对所述训练数据集及验证数据集进行二分类标注;
利用所述训练数据集构建并训练二分类模型,并根据所述验证数据集对所述二分类模型进行验证调整,得到标准二分类模型;
获取待处理数据集,将所述待处理数据集输入至所述标准二分类模型中,得到二分类结果;
对所述标准二分类模型进行解析处理,得到贡献度矩阵;
按照预设的多分类标注对所述贡献度矩阵进行聚合处理,得到贡献度聚合矩阵,并根据所述贡献度聚合矩阵及所述二分类结果,得到多分类结果。
可选地,所述利用所述训练数据集构建并训练二分类模型,包括:
获取所述训练数据集和所述训练数据集对应的二分类标注;
遍历所述二分类标注中每一个标注,并计算每一个所述标注对所述训练数据集的基尼指数,得到所述二分类标注对应的基尼指数集合;
对所述基尼指数集合按照从大到小的顺序进行排序,选取所述基尼指数集合中最小的基尼指数所对应的标注作为切分点;
以所述切分点作为初始决策树的根节点,从所述切分点出发生成子节点并将所述训练数据集分配到所述子节点中,直到将所述二分类标注中的所有标注遍历完毕,生成所述初始决策树;
对所述初始决策树进行剪枝处理,得到二分类模型。
可选地,所述对所述初始决策树进行剪枝处理,包括:
计算所述初始决策树上所有非叶子节点的表面误差增益值;
对所述表面误差增益值小于预设的增益阈值的非叶子节点进行剪枝。
可选地,所述根据所述验证数据集对所述二分类模型进行验证调整,得到标准二分类模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110318230.2/2.html,转载请声明来源钻瓜专利网。