[发明专利]训练数据处理方法、分类模型训练方法及设备在审
申请号: | 201910351320.4 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110163849A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 马永培;熊健皓;赵昕;和超;张大磊 | 申请(专利权)人: | 上海鹰瞳医疗科技有限公司 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06K9/62 |
代理公司: | 北京华仁联合知识产权代理有限公司 11588 | 代理人: | 苏雪雪 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 标签信息 数据处理 分类模型训练 分类结果 分类模型 收敛条件 样本图像 不一致 替换 输出 分类 更新 | ||
本发明提供一种训练数据处理方法、分类模型训练方法及设备,所述训练数据处理方法包括:获取多个训练数据,所述训练数据中包括样本图像及其标签信息;利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。
技术领域
本发明涉及人工智能领域,具体涉及一种训练数据处理方法、分类模型训练方法及设备。
背景技术
在诸如机器学习、深度学习、神经网络等人工智能算法的众多应用场景中,训练数据的准确性对模型的性能起到至关重要的作用。具体地,在训练分类模型的过程中,需要使用样本数据及其标注作为训练数据,所谓标注是用于表示样本数据的实际类型的信息,也即标签信息。
目前,多数情况下标注操作需要由人工完成,通过人工经验辨别样本数据的类型,并为其添加相应的标签信息。在某些应用场景中,可能会遇到样本数据的实际类型很难被辨别的情况,也即类型的界限比较模糊。尤其是在图像识别领域,例如对于某一样本图像而言,由于图像不清晰或者特征不明显等客观原因,使得人工很难确定其具体类别,这使得人工标注结果可能出现错误。错误的训练数据会使分类模型的训练很难收敛,进而影响分类模型的识别准确性。
发明内容
有鉴于此,本发明提供一种训练数据处理方法,包括:
获取多个训练数据,所述训练数据中包括样本图像及其标签信息;
利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;
当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;
利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。
可选地,所述方法被循环执行,在更新所述训练数据后,返回利用所述多个训练数据对分类模型进行训练的步骤,直至达到设定的收敛条件为止。
可选地,所述收敛条件为损失值小于设定阈值。
可选地,在利用所述多个训练数据对分类模型进行训练的步骤中,利用所述多个训练数据中的至少部分训练数据对分类模型进行训练,直至损失值不再继续下降,以获取最低损失值。
可选地,利用与所述标签信息不一致的分类结果替换相应的标签信息,包括:
从对各个所述样本图像的分类结果中确定与相应的所述标签信息不一致的分类结果,所述分类结果中包括对应于类别的置信度信息;
从确定的分类结果中筛选出置信度信息大于设定置信度阈值的分类结果,并利用筛选出的分类结果替换相应的标签信息。
可选地,所述样本图像为眼底图像,所述标签信息用于表示与眼底疾病相关的类别。
可选地,所述标签信息用于表示眼底血管反光程度。
本发明还提供一种分类模型训练方法,包括:
利用上述训练数据处理方法处理训练数据;
利用处理后的训练数据对目标分类模型进行训练。
相应地,本发明还提供一种训练数据处理设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述训练数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海鹰瞳医疗科技有限公司,未经上海鹰瞳医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910351320.4/2.html,转载请声明来源钻瓜专利网。