[发明专利]一种融合多分类器投票策略的主动学习方法在审

申请号：	202210584071.5	申请日：	2022-05-27
公开（公告）号：	CN114997298A	公开（公告）日：	2022-09-02
发明（设计）人：	郭东升;杨挺;韩宇佳;樊继刚;杨萍	申请（专利权）人：	贵州华谊联盛科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617	代理人：	李绩
地址：	550016 贵州省贵阳市贵阳国家高新技术产***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合分类投票策略主动学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及入侵检测技术领域，具体是一种融合多分类器投票策略的主动学习方法。包括采用多分类器协同投票机制实现无标签样本的标注，将整个样本集分成带标签样本集L和无标签样本集U，利用K‑Means聚类算法对初始训练集进行聚类，选择需要标注的样本，将标注后的样本加入到对应的分类器中，并进一步迭代训练，确定迭代终止条件，最后基于多分类器协同标注的TSVM算法，得到最终分类器TSVM。本发明融合了TSVM算法与提出的多分类器投票决策标注思想，设计基于多分类器协同标注的TSVM算法，该算法利用多个分类器的协同投票机制决定标注样本的类别，提高了标注的准确率；同时以批量方式标注样本，提高了标注效率；多个分类器之间的协同，减少了每轮迭代的训练时间。

技术领域

本发明涉及入侵检测技术领域，具体是一种融合多分类器投票策略的主动学习方法。

背景技术

入侵检测的本质是分类问题，其存在的问题有：一方面，各类算法自有其优缺点，如一些算法可能对某一攻击类型来说效果不错，但对其他类型攻击的检测效果不佳；另一方面，许多研究专注于提高整体的检测精度，而对小样本(攻击样本)的检测效果不佳。但实际上，考虑到攻击样本相对正常样本极端不平衡的情况，更应该关注入侵检测分类器对攻击样本的检测能力。而如何解决小样本情况下的入侵检测：通常有两种情况：情况一：正常样本远远大于攻击样本情况下的建模问题；情况二：有标签的样本数量非常稀少，而无标签的样本非常丰富，如何利用这两类样本建模。

①半监督直推式支持向量机

直推式支持向量机(Transductive Support Vector Machine，TSVM)是基于低密度分割假设的最大间隔分类方法。与传统的支持向量机非常类似，它寻找具有最大间隔的分类超平面作为最优分类超平面，同时考虑无标签数据和有标签数据来训练分类模型。

假设一组独立同分布的有标签样本：

{(x₁,D₁),L,(x_i,D_i)}∈Rⁿ×R,i＝1,L,l,y_i＝{-1,+1} (1)

以及无标签样本：

{x_l+1,L,x_l+u} (2)

一般情况下，TSVM的学习过程可以认为是求解下面最优化问题的过程：

min(y₁,L,y_n,w,b,ξ₁,L,ξ_l,ξ_l+1,L,ξ_l+u)

s.t.:

其中，C₁和C₂由用户设定，用于控制对错分样本的惩罚。C₂为训练过程中无标签数据的“影响因子”；C₂ξ_j被称作第j个无标签样本在目标函数中的“影响项”。

TSVM的训练过程如下：

步骤一：设置参数C₁与C₂，采用归纳学习方式训练有标签的样本，并得到一个初始分类器。设定无标记样本中正类样本的估计个数N。