[发明专利]一种基于Bagging和离群点的分类结果置信度的度量方法在审

申请号：	201710054802.4	申请日：	2017-01-24
公开（公告）号：	CN106874944A	公开（公告）日：	2017-06-20
发明（设计）人：	严云洋;瞿学新;朱全银;于柿民;赵阳;唐海波;潘舒新	申请（专利权）人：	淮阴工学院
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京苏高专利商标事务所(普通合伙)32204	代理人：	梁耀文
地址：	223005 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bagging 离群分类结果置信度量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，包括如下步骤：

步骤一：对已有可信数据集采用Bagging集成学习方法，即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器，得到基分类器的分类模型集；

步骤二：通过步骤一得出的基分类器的分类模型集，对待度量置信度数据进行分类，并计算在不同分类中的分类概率，得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集，再对分类结果集进行统计，得到待度量置信度数据的分类结果；

步骤三：采用离群点分析方法，对待度量置信度数据的分类结果进行置信度度量，得到待度量置信度数据中的可信数据和不可信数据，并将待度量置信度数据中满足置信条件的数据加入已有可信数据集。

2.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，所述步骤一中得到基分类器的分类模型集的具体方法为：

步骤1.1：定义已有可信数据集的特征和分类属性；

步骤1.2：选择Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器Function；

步骤1.3：对步骤1.1中定义过的已有可信数据集采用Bagging集成学习方法，以步骤1.2中选择的Function为基分类器，得到Function的分类模型集。

3.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，所述步骤二中得到待度量置信度数据的分类结果的具体方法为：

步骤2.1：对待度量置信度数据进行分类，并计算不同分类中的分类概率，得到待度量置信度数据的分类结果集Y和待度量置信度数据的分类概率集Cf；

步骤2.2：统计步骤2.1中分类结果集Y中每个类别的个数，得到待度量置信度数据的分类结果py。

4.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，所述步骤三采用离群点分析方法对待度量置信度数据的分类结果进行置信度度量的具体方法为：

步骤3.1：设满足Point＝Cf_py的点为离群点，将待度量置信度数据的分类概率集Cf中的Cf_py取出，并从概率集Cf中删除Cf_py，得到矩阵P；

步骤3.2：遍历矩阵P中每个分类，计算矩阵P的质心，其公式为：

$<mrow><msub><mi>M</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi></mrow></msub><mo>=</mo><mfrac><mrow><munderover><mo>Σ</mo><mrow><mi>L</mi><mi>o</mi><mi>o</mi><mi>p</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>L</mi><mi>o</mi><mi>o</mi><mi>p</mi><mo>&NotEqual;</mo><mi>N</mi><mi>u</mi><mi>m</mi></mrow><mrow><mi>X</mi><mo>-</mo><mn>2</mn></mrow></munderover><msub><mi>P</mi><mrow><mi>L</mi><mi>o</mi><mi>o</mi><mi>p</mi></mrow></msub></mrow><mrow><mi>X</mi><mo>-</mo><mn>2</mn></mrow></mfrac></mrow>$

式中，P_Loop为分类概率集中第Loop个分类，Num为当前计算的分类，X为分类个数；

步骤3.3：遍历矩阵P中每个类别分别与质心的距离和离群点的距离，计算质心的公式为：

$<mrow><msub><mi>d</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>=</mo><msqrt><mrow><munderover><mo>Σ</mo><mrow><mi>w</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>P</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi><mo>,</mo><mi>w</mi></mrow></msub><mo>-</mo><msub><mi>M</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi><mo>,</mo><mi>w</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow>$

计算离群点的公式为：

$<mrow><msub><mi>d</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi><mo>,</mo><mn>2</mn></mrow></msub><mo>=</mo><msqrt><mrow><munderover><mo>Σ</mo><mrow><mi>g</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>P</mi><mrow><mi>N</mi><mi>u</mi><mi>m</mi><mo>,</mo><mi>g</mi></mrow></msub><mo>-</mo><msub><mi>Point</mi><mi>g</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>-</mo><mi>α</mi></mrow>$

式中，P_Num为分类概率集中第Num个分类，M_Num为Num分类对应的质心，α为自定义值；

步骤3.4：执行步骤3.3后，若满足d_Num,2>d_Num,1，则待度量置信度数据为可信数据，并将其加入到已有可信数据集Train中；否则，待度量置信度数据为不可信数据，不加入已有可信数据集Train中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淮阴工学院，未经淮阴工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710054802.4/1.html，转载请声明来源钻瓜专利网。

上一篇：业务对象分类方法和系统
下一篇：一种用于视障人士的人行道交通灯检测系统和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Bagging和离群点的分类结果置信度的度量方法在审

专利文献下载