[发明专利]数据标注方法及装置有效
申请号: | 202110764998.2 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113205163B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 郑继龙;齐红威;何鸿凌;肖永红 | 申请(专利权)人: | 数据堂(北京)科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 侯天印;郝博 |
地址: | 100192 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 标注 方法 装置 | ||
本发明公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明可以大幅减少人工标注成本,并提高数据标注效率。
技术领域
本发明涉及人工智能技术领域,尤其涉及数据标注方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,人工智能算法训练需要大量的数据标注,传统的数据标注方法包含纯人工的标注方案以及基于监督学习算法+人工标注的半自动标注方案。纯人工的手工标注方案标注精度最高,但是存在人力成本高、效率低的劣势,人力成本高导致数据标注不具备大规模推广能力,效率低导致人工数据标注难以满足算法快速迭代的需求。基于监督学习算法+人工标注的半自动方案包括6个步骤,技术流程图如图1所示:
1、人工数据标注(算法模型冷启动):用人工标注的方式对原始数据进行标注,得到算法冷启动需要的训练数据集;
2、监督学习算法模型训练:基于标注好的训练数据集+神经网络算法模型进行模型训练,得到初版本的监督学习算法模型;
3、算法自动标注:基于训练好的算法模型对新的未标注的数据进行自动标注,生成自动标注结果;
4、人工校验人工标注:基于人工校验的方式对于算法自动标注的数据进行校验,将错误标注的数据进行修正,对于算法无法自动标注的数据(算法未识别到的数据)进行人工补充标注;
5、全标签数据集:数据标注的最终结果;
6、模型迭代:基于全标签数据集重新训练算法模型,实现模型迭代。
该基于监督学习算法+人工标注的半自动方案在一些基础任务上可以做到一定程度的自动化标注,节省了部分人力成本并提高了效率,但是此类技术方案具有以下3个缺陷:
1)初版本算法模型成本高、效率低:监督学习算法的冷启动(初始神经网络模型)需要原始训练数据集,而原始训练数据集只能通过人工标注,这就需要大量的人工数据标注,冷启动成本高效率低;
2)算法模型迭代有效率低:监督学习算法能够自动标注的数据都是模型能够识别的简单场景数据,而模型迭代则需要模型无法正确识别的困难场景数据,对于算法改进需要的困难数据无法进行自动标注,因此自动标注出来的数据对于模型迭代作用很小甚至无作用;
3)算法模型泛化率差:算法模型是在训练集的数据分布中学习得到,绝大多数情况下没有场景泛化机制(例如域迁移机制),因此如果待标注数据特征分布不在训练数据集分布内,算法模型的识别效果会大幅降低,即监督学习算法对于训练数据覆盖不到的场景识别效果会大幅降低(例如场景的变化以及摄像头角度的大幅变化),场景泛化能力较差。
发明内容
本发明实施例提供一种数据标注方法,用以现有技术中人工数据标注具有成本高、效率低的劣势,该方法包括:
利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;
对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;
对预设数量的弱标签数据信息进行标注,获得部分已标注数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据堂(北京)科技股份有限公司,未经数据堂(北京)科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110764998.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置