[发明专利]针对类不均衡数据的产品关键零部件状态分类方法有效
申请号: | 202011110292.6 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112257767B | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 刘振宇;刘惠;郏维强;张朔;张栋豪;谭建荣 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G06F18/23;G06F18/214;G06N3/09;G06N3/044 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 均衡 数据 产品 关键 零部件 状态 分类 方法 | ||
本发明公开了一种针对类不均衡数据的产品关键零部件状态分类方法。获取辅助训练集和源训练集并预处理;对源训练集中的多数类样本N次欠采样处理,获得N个相对均衡的子数据集;用N个子数据集并行训练N个SVM分类器,投票法选择获得最终预测结果;取出最终预测结果中的少数类辅助数据并添加到源训练集;构建深度学习分类模型用重构后的源训练集监督训练;再对待预测的传感器数据进行检测处理。本发明充分利用了源训练集中有标签数据和辅助数据集中未标注的数据,利用弱监督学习方法处理,有利于降低类不均衡数据的不均衡比例,提高分类模型的预测效果。
技术领域
本发明属于工业类不均衡数据处理领域的一种弱监督学习分类方法,具体是涉及了一种针对类不均衡数据的产品关键零部件状态分类方法。
背景技术
产品关键零部件如刀具、齿轮、轴承等在现代工业中的应用非常广泛,大量工业系统的性能与关键零部件正常运行与否有关。关键零部件的工作状态对于工业系统的可靠性和有效性具有较大意义。随着互联网技术、先进传感技术和存储技术的发展,现代工业生产中有海量的有价值的传感器数据被采集和保存。通过传感器数据分析产品关键零部件的工作状态也得到了工业界和学术界的广泛重视。然而,工业数据广泛存在的类不均衡性阻碍了进一步的研究。以故障领域为例,在平时的工业活动中,产品关键零部件正常运行的时间总是要比故障时间多,这就意味着采集到的传感器数据中,正常状态下的样本比故障状态下的样本要多很多,属于多数类样本。而故障样本则属于少数类样本。通常情况下,样本之间的比例悬殊将导致预测模型过度拟合多数类样本,而对于少数类样本的预测精度降低。这种情况下,总体样本的准确率依然比较高,但模型却难以分辨出少数类状态。然而,类似于故障状态的少数类样本才是从业者需要重点关注的对象。因此,研究类不均衡数据,提高少数类样本的预测精度,具有重要的理论和应用意义。
近年来,学术界和工业界的学者对类不均衡数据进行了大量研究,主要集中在两方面:数据级和算法级的研究。数据级的研究主要是包括对类不均衡数据进行欠采样处理、过采样处理和少数类数据生成。其中具有代表性的方法有:1)利用合成少数类过采样算法(SMOTE)从类不均衡数据中合成少数类样本,以降低不均衡比例;2)利用集成欠采样算法(EasyEnsemble)将多数类样本划分为若干个集合,用以训练多个基分类器,通过集成学习降低少数类样本的预测误差。上述采样方法虽然从直观上解决了类不均衡的问题,但却存在一些问题,SMOTE容易引入与真实分布不一致的样本,加大预测模型进行分类的难度;而EasyEnsemble有可能会造成重要信息丢失,并导致过拟合。算法级的研究主要通过改进分类算法,通过代价敏感学习调整对两类样本的关注度等。但该方法需要一定先验知识,且不适合某些分类算法,例如以批次训练的神经网络。
通常,数据质量的重要性在类不均衡学习中是要占到首位的,因此补充更多的更真实的少数类样本是解决类不均衡学习的重要途径。考虑到在平时的工业活动中,传感器会采集大量的工业数据,但对这些工业数据打标签需要付出极大的代价。例如,在数控机床加工过程中,若要测量刀具的磨损情况,需要中断当前操作,使用显微镜等工具进行测量,这种情况在实际生产中是难以接受的。因此,工业生产活动中可能会产生大量没有标签的传感器数据,可以考虑从未标注的传感器数据中提取有价值的信息来提高类不均衡数据的质量。
弱监督学习是指在模型训练过程中,并非所有训练样本都有准确的标签。通常,在弱监督学习中,未标注的数据也可以发挥一定的作用。考虑到上述情况,本发明提出了一种针对类不均衡数据的产品关键零部件状态分类方法,尝试从未标注的数据中获取少数类样本。这种情况下获取的样本是真实存在的,与生成的少数类样本相比具有较大优势。同时,为防止错误地引入多数类样本,加大分类器的分类难度,本发明对训练集样本进行了有差别的加权,防止分类器过度拟合新增的少数类样本,同时也使分类器更关注于原有的少数类样本。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种针对类不均衡数据的产品关键零部件状态分类方法,充分利用了源训练集中有标签数据和辅助训练集中未标注的数据,方法有利于降低类不均衡数据的不均衡比例,提高分类模型的预测效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011110292.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置