[发明专利]数据解析装置在审
申请号: | 201880097252.7 | 申请日: | 2018-09-13 |
公开(公告)号: | CN112654864A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 藤田雄一郎;野田阳 | 申请(专利权)人: | 株式会社岛津制作所 |
主分类号: | G01N27/62 | 分类号: | G01N27/62 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 解析 装置 | ||
多次重复进行以下一系列处理:将被提供的带标签教师数据分割为模型构建用数据和模型验证用数据,使用模型构建用数据来构建机器学习模型,并将该模型应用于模型验证用数据来识别样本(赋予标签)(S2~S5)。虽然当模型构建用数据改变时构建出的机器学习模型改变,但是应该能够以高概率准确地进行识别,因此在错误标签样本中,原本的标签与识别结果不一致从而成为错误识别的可能性高。当针对每个样本计算该错误识别次数来求出错误识别率时,在错误标签样本中错误识别率相对变高,因此基于错误识别率来确定错误标签样本(S6~S7)。像这样,通过以高精度检测教师数据所包含的、错误标签状态的可能性高的样本,能够提升机器学习模型的识别性能。
技术领域
本发明涉及一种数据解析装置,该数据解析装置对由质谱分析装置、气相色谱仪(GC)、液相色谱仪(LC)、分光测定装置这样的各种分析装置获得的数据等通过各种方法收集到的数据进行解析,更详细的是涉及一种数据解析装置,该数据解析装置利用作为机器学习的一种方法的监督学习来识别未赋予标签的数据并进行标签赋予,或者预测标签。此外,一般在“机器学习”这样的用语中也有时不包含多变量分析,但是在本说明书中设为机器学习包括多变量分析。
背景技术
为了从多种多样的大量的数据中找到规律性,并利用该规律性来进行数据的预测或识别,机器学习是一个有用的方法,其应用领域近年来逐渐扩大。作为机器学习的代表性的方法,支持向量机(SVM=Support Vector Machine)、神经网络(Neural Network)、随机森林(Random Forest)、自适应提升(AdaBoost)、深度学习(Deep Learning)等广为人知。另外,作为广义的机器学习所包括的多变量分析的代表性的方法,主成分分析(PCA=Principal Component Analysis)、独立成分分析(ICA=Independent ComponentAnalysis)、偏最小二乘法(PLS=Partial Least Squares)等广为人知(参照专利文献1等)。
在机器学习中大致分为监督学习和无监督学习。例如,在基于通过分析装置收集到的数据来识别被检者有没有特定的疾病这样的情况下,只要能够对于患有该疾病的患者和未患有该疾病的正常者分别预先收集大量的数据,则能够进行将这些数据作为教师数据的监督学习。最近特别地,在各处都进行着以下的尝试:对通过质谱分析装置获取到的质谱数据应用监督学习,来进行癌症等疾病的诊断。
图12是整理了关于癌标本和非癌标本的质谱数据来作为教师数据的峰矩阵的一例。
该峰矩阵在纵向设为样本,在横向设为峰位置(质荷比m/z),将各峰的信号强度值设为了要素的值。因而,该峰矩阵中的1行的各要素表示出关于一个样本的各质荷比中的峰的信号强度值,1列的各要素表示出某个质荷比时的所有样本的信号强度值。在此,样本1到样本n-2的样本为癌标本,对这些样本的每一个赋予了表示是癌的“1”的值的标签。另一方面,样本n-1到样本N的样本为非癌标本,对这些样本的每一个赋予了表示是非癌的“0”的值的标签。在这种情况下,标签为二值的标签。
通过使用这样的带标签教师数据,能够构建能够以高准确性识别癌和非癌的机器学习模型。然而,根据情况,有时教师数据本身的标签错误。说到底癌与非癌(或者其它疾病的患病与未患病)的判定是基于病理医生的诊断的,既然是人进行判断,则实际上无法使错误为零。另外,即使病理医生的诊断结果正确,也要考虑到由于将该病理医生的诊断结果作为教师数据输入时的操作员的输入错误而导致标签错误。因此,无法避免在作为教师数据提供的大量的样本中混入少量的标签错误的错误标签状态的样本。
作为应对这样的状况的一个方法,将机器学习的算法设为即使在教师数据中混入一些错误标签状态的样本也能够得到高的识别性能。然而,当想要提高对于错误标签状态的教师数据的容许度时,无法避免识别性能的下降,尚无法实现使它们能够并存的通用的机器学习的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社岛津制作所,未经株式会社岛津制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880097252.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置