[发明专利]一种非监督学习识别异常值的方法在审
申请号: | 202110103375.0 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112906751A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 王小华;潘晓光;焦璐璐;张娜;张雅娜 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F30/20 |
代理公司: | 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 | 代理人: | 杨凯;连慧敏 |
地址: | 030006 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 学习 识别 异常 方法 | ||
本发明属于非监督学习技术领域,具体涉及一种非监督学习识别异常值的方法,包括下列步骤:设定参数;在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;经过T次迭代后,把异常值得分从高到低排序整合为SASt;SASt按照函数F合并为ASFINAL;进行仿真实验。本发明结合了各种离群点检测算法,通过对原始特征数据集的特征子集进行采样,提高了分类器的多样性。本发明与现有的LOF方法相比,采用迭代采集子集的方法,不同子集有不同异常值数量,不同变量数量,显示出了更好的精度。可以用于高维的含多个无关变量的数据的异常值检测。本发明用于非监督学习异常值的识别。
技术领域
本发明属于非监督学习技术领域,具体涉及一种非监督学习识别异常值的方法。
背景技术
通常而言,当样本量较小和样本变量较多的时候,高维数据集上的异常值可能影响数据的均值和方差,甚至影响模型的预测结果。目前机器学习领域的异常值检测方法主要包括监督学习和非监督学习两类。在数据量较小的时候可以使用监督学习,然而缺点是其要在标签数据基础上使用。另外一种方法是非监督学习,这种方法在高维数据异常值检测领域较为常用,通常是计算高维空间的数据点间的距离,然而高维空间中数据点很分散,数据间的距离差别较小,所有的数据都有可能被判定为异常值,比如常用的马氏距离就被证明在高维空间中对于距离的测量不够稳定。
因此,学者们提出了一些在亚高维空间中检测异常值的方法,然而,随着选择的变量数不同,亚空间也不同,最终检测到的异常值也不同,造成了结果的差异性。
为更好解决这个问题,有学者提出了局部异常值检测方法,这种方法基于数据族的密度计算高维空间的密度,比较之前提及的检测方法,此方法确实在检测高维数据方面有更好的表现,然而还是存在异常值检测误差较大,当数据包含较多无关变量时,结果不稳定的情况。为了解决这个问题,本文提出了改进的LOF方法,此方法能够合理科学的检测出异常值,也能在数据包含多个无关变量的时候,降低检测误差。
发明内容
针对上述的技术问题,本发明提供了一种精度高、误差小、稳定性强的非监督学习识别异常值的方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种非监督学习识别异常值的方法,包括下列步骤:
S100、设定参数;
S200、在所述设定参数中的第t次迭代中计算输出异常得分向量ASt;
S300、经过T次迭代后,把异常值得分从高到低排序整合为向量SASt;
S400、向量SASt按照函数F合并为向量ASFINAL;
S500、进行仿真实验。
所述S100中设定参数的方法为:设定的参数总共包括T次迭代过程,t=1,2,3…T轮迭代,数据集X的变量数为d,m为数据集样本量大小,也是每个向量中的数据个数,S是数据集。
所述S200中,在其中的第t次迭代,随机不放回的选择变量数大小为Nt,数值在d/2至 d间,构造一个子集Ft,在子集Ft中使用异常值检测方法LOF,其中LOF为Local outlierfactor 离群点检测算法。
所述S400中,迭代的异常值得分整合得到向量ASFINAL的函数F包括如下两种方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110103375.0/2.html,转载请声明来源钻瓜专利网。