[发明专利]机器学习用数据收集系统以及机器学习用数据收集方法在审
申请号: | 202010429472.4 | 申请日: | 2020-05-20 |
公开(公告)号: | CN112016694A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 上野浩 | 申请(专利权)人: | 大隈株式会社 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 崔成哲;黄纶伟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 习用 数据 收集 系统 以及 方法 | ||
提供机器学习用数据收集系统以及机器学习用数据收集方法。能够防止被赋予了不恰当的标签的质量差的数据混入,并且能够大量高效地收集优质数据。机器学习用数据收集系统(3)具备:分类模型保存单元(22),配置有在用户环境(2)中使用的多个学习完毕分类模型;模型发送单元(26),向用户环境(2)发送分类模型;分类结果保存单元(23),将从用户环境(2)发送的带标签数据作为输入而进行分类,保存分类结果,该分类结果包含每个输入数据的分类正确与否的结果和正确率;最佳模型推荐单元(21),其根据每个分类模型的分类结果,提示适合于输入数据的分类模型;和教师数据记录单元(28),其将输入数据记作分类模型的教师数据或测试数据。
技术领域
本发明涉及在机器学习中所需的教师或测试数据的收集系统以及收集方法。
背景技术
作为机器学习技术之一,作为受理被设为判别对象的数据的输入、并判定该数据的内容的类别(标签)并输出的方法,存在附加有教师的学习技术。在该技术中,预先准备相当数量的使数据与该数据的标签成对的数据作为教师数据,针对与数据对应的标签,以输出模型的方式进行学习。因此,在未正确地赋予与数据成对的标签的情况下,会学习到进行错误判定的模型,所得到的模型的判定性能较低。另一方面,虽然还存在不需要教师数据的无教师学习技术,但是为了在性能评价时判断是正确答案/不正确答案,希望存在赋予了正确的标签的评价用测试数据。
在机器学习中,为了模型学习需要大量数据。在对数据赋予标签时,理想情况下是希望在将判断基准统一的基础上,由熟练者仔细斟酌来判断所赋予的标签。然而,由于现实中资源有限,因此存在以模糊的状态赋予标签、或者由非熟练者来赋予标签等情况,从而无法完全防止贴错标签(混入不正确的标签)。由此,如何实现不正当的教师数据的混入的检查成为一个大课题。
此外,收集数据这一事项本身也要花费工夫,需要很多人来收集大量数据,因此,如何获得很多合作者也是一个课题。
如上所述,为了制作判定性能优异的学习模型,大量且优质的教师数据也是不可缺少的,双方的兼顾很重要。
作为减轻质量差的教师数据对学习模型产生的影响的技术,存在专利文献1。这里,公开了如下技术:针对作为教师数据的供给源的每个用户制作模型,此外,将各用户的特征的差异指标化,以降低具有与其他用户不同的特征的用户的贡献率的方式进行学习,从而降低质量差(被赋予了不适当的标签)的教师数据的影响。
同样,作为降低可靠性较低的标签的影响的技术,公开了专利文献2的技术。在本技术中,事先选择出可靠的教师数据并对除此以外的数据根据其与可靠的数据的差异以及标签的一致性来设定可靠度,由此防止了学习精度的恶化。
但是,通过机器学习制作的学习模型的内容多为黑盒,在提供了多个学习模型的情况下,作为模型利用者,有时难以判断自己应利用哪个模型。因此,在专利文献3中,公开了在系统中预先保存多个学习模型,根据基于各诊断模型的预测量和实际量的差来选择最佳的学习模型的技术。即,是一种对预测量与实际量的差进行评价以选择适当的模型的技术。
此外,在专利文献4中公开了一种警报预测技术,根据示出机械装置的故障等的来自用户的事件信息(数据),由预测模型制作部制作预测模型,由预测模型评价部计算并评价该预测模型的预测遗漏率以及误预测率,使显示控制部显示评价的信息以向用户通知预测模型的精度。
专利文献1:日本特许第6231944号公报
专利文献2:日本特开2009-282686号公报
专利文献3:日本特许第4339769号公报
专利文献4:日本特许第6358401号公报
根据专利文献1的技术,虽然能够降低熟练度低的用户等贴错标签这样的相对而言较多的用户影响,但是标签赋予错误是偶发地产生的,无法防止熟练者偶尔发生的贴错的混入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大隈株式会社,未经大隈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010429472.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置