[发明专利]一种基于Bagging和离群点的分类结果置信度的度量方法在审
申请号: | 201710054802.4 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106874944A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 严云洋;瞿学新;朱全银;于柿民;赵阳;唐海波;潘舒新 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 梁耀文 |
地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bagging 离群 分类 结果 置信 度量 方法 | ||
1.一种基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,包括如下步骤:
步骤一:对已有可信数据集采用Bagging集成学习方法,即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器,得到基分类器的分类模型集;
步骤二:通过步骤一得出的基分类器的分类模型集,对待度量置信度数据进行分类,并计算在不同分类中的分类概率,得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集,再对分类结果集进行统计,得到待度量置信度数据的分类结果;
步骤三:采用离群点分析方法,对待度量置信度数据的分类结果进行置信度度量,得到待度量置信度数据中的可信数据和不可信数据,并将待度量置信度数据中满足置信条件的数据加入已有可信数据集。
2.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,所述步骤一中得到基分类器的分类模型集的具体方法为:
步骤1.1:定义已有可信数据集的特征和分类属性;
步骤1.2:选择Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器Function;
步骤1.3:对步骤1.1中定义过的已有可信数据集采用Bagging集成学习方法,以步骤1.2中选择的Function为基分类器,得到Function的分类模型集。
3.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,所述步骤二中得到待度量置信度数据的分类结果的具体方法为:
步骤2.1:对待度量置信度数据进行分类,并计算不同分类中的分类概率,得到待度量置信度数据的分类结果集Y和待度量置信度数据的分类概率集Cf;
步骤2.2:统计步骤2.1中分类结果集Y中每个类别的个数,得到待度量置信度数据的分类结果py。
4.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,所述步骤三采用离群点分析方法对待度量置信度数据的分类结果进行置信度度量的具体方法为:
步骤3.1:设满足Point=Cfpy的点为离群点,将待度量置信度数据的分类概率集Cf中的Cfpy取出,并从概率集Cf中删除Cfpy,得到矩阵P;
步骤3.2:遍历矩阵P中每个分类,计算矩阵P的质心,其公式为:
式中,PLoop为分类概率集中第Loop个分类,Num为当前计算的分类,X为分类个数;
步骤3.3:遍历矩阵P中每个类别分别与质心的距离和离群点的距离,计算质心的公式为:
计算离群点的公式为:
式中,PNum为分类概率集中第Num个分类,MNum为Num分类对应的质心,α为自定义值;
步骤3.4:执行步骤3.3后,若满足dNum,2>dNum,1,则待度量置信度数据为可信数据,并将其加入到已有可信数据集Train中;否则,待度量置信度数据为不可信数据,不加入已有可信数据集Train中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710054802.4/1.html,转载请声明来源钻瓜专利网。