[发明专利]一种融合多分类器投票策略的主动学习方法在审
| 申请号: | 202210584071.5 | 申请日: | 2022-05-27 |
| 公开(公告)号: | CN114997298A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 郭东升;杨挺;韩宇佳;樊继刚;杨萍 | 申请(专利权)人: | 贵州华谊联盛科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 李绩 |
| 地址: | 550016 贵州省贵阳市贵阳国家高新技术产*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 分类 投票 策略 主动 学习方法 | ||
本发明涉及入侵检测技术领域,具体是一种融合多分类器投票策略的主动学习方法。包括采用多分类器协同投票机制实现无标签样本的标注,将整个样本集分成带标签样本集L和无标签样本集U,利用K‑Means聚类算法对初始训练集进行聚类,选择需要标注的样本,将标注后的样本加入到对应的分类器中,并进一步迭代训练,确定迭代终止条件,最后基于多分类器协同标注的TSVM算法,得到最终分类器TSVM。本发明融合了TSVM算法与提出的多分类器投票决策标注思想,设计基于多分类器协同标注的TSVM算法,该算法利用多个分类器的协同投票机制决定标注样本的类别,提高了标注的准确率;同时以批量方式标注样本,提高了标注效率;多个分类器之间的协同,减少了每轮迭代的训练时间。
技术领域
本发明涉及入侵检测技术领域,具体是一种融合多分类器投票策略的主动学习方法。
背景技术
入侵检测的本质是分类问题,其存在的问题有:一方面,各类算法自有其优缺点,如一些算法可能对某一攻击类型来说效果不错,但对其他类型攻击的检测效果不佳;另一方面,许多研究专注于提高整体的检测精度,而对小样本(攻击样本)的检测效果不佳。但实际上,考虑到攻击样本相对正常样本极端不平衡的情况,更应该关注入侵检测分类器对攻击样本的检测能力。而如何解决小样本情况下的入侵检测:通常有两种情况:情况一:正常样本远远大于攻击样本情况下的建模问题;情况二:有标签的样本数量非常稀少,而无标签的样本非常丰富,如何利用这两类样本建模。
①半监督直推式支持向量机
直推式支持向量机(Transductive Support Vector Machine,TSVM)是基于低密度分割假设的最大间隔分类方法。与传统的支持向量机非常类似,它寻找具有最大间隔的分类超平面作为最优分类超平面,同时考虑无标签数据和有标签数据来训练分类模型。
假设一组独立同分布的有标签样本:
{(x1,D1),L,(xi,Di)}∈Rn×R,i=1,L,l,yi={-1,+1} (1)
以及无标签样本:
{xl+1,L,xl+u} (2)
一般情况下,TSVM的学习过程可以认为是求解下面最优化问题的过程:
min(y1,L,yn,w,b,ξ1,L,ξl,ξl+1,L,ξl+u)
s.t.:
其中,C1和C2由用户设定,用于控制对错分样本的惩罚。C2为训练过程中无标签数据的“影响因子”;C2ξj被称作第j个无标签样本在目标函数中的“影响项”。
TSVM的训练过程如下:
步骤一:设置参数C1与C2,采用归纳学习方式训练有标签的样本,并得到一个初始分类器。设定无标记样本中正类样本的估计个数N。
步骤二:利用初始分类器对所有无标签样本计算其决策函数值。将决策函数值比较大的前N个无标签样本标记为正类样本,并且把剩下的无标签样本标记为负类样本。设定Ctemp为一个临时影响因子。
步骤三:在标记的所有样本上重新训练SVM模型。对于新产生的分类器,根据使目标函数(3)下降尽可能大的原则,交换每一对样本的标签,直到没有满足交换条件的样本,否则重复该过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州华谊联盛科技有限公司,未经贵州华谊联盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210584071.5/2.html,转载请声明来源钻瓜专利网。





