[发明专利]一种基于文本描述的主动数据采集方法在审
申请号: | 202110797843.9 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113486966A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 唐英鹏;黄圣君 | 申请(专利权)人: | 南京市九一数据技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 211100 江苏省南京市铺岗街5*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 描述 主动 数据 采集 方法 | ||
本发明面向自动标注技术领域公开了一种基于文本描述的主动数据采集方法。标记数据是主流机器学习模型训练的基础,其获取通常包括数据采集、数据清洗、数据标注、人工审查几个关键步骤。现有主动学习方法往往认为数据采集代价低廉,仅在数据标注阶段进行数据选择,这使得大量采集数据没有得到利用,造成资源浪费。本发明提出了一种基于文本描述的主动数据采集方法,在数据采集阶段进行主动选择。方法基于代表性与信息量刻画出最有价值的数据画像,并利用自然语言处理模型将机器学习模型对数据的需求以文本形式反馈给工作人员,从而令采集的数据能够满足模型当前的偏好。发明充分考虑了实际任务场景的挑战,能够提高采集数据的利用率。
技术领域
本发明属于自动标注技术领域,具体涉及一种基于文本描述的主动数据采集方法。
背景技术
机器学习是推进国计民生各领域智能化的关键技术。标记数据是主流机器学习模型训练的基础。然而标记数据获取通常耗时耗力,目前训练数据获取成本已成为制约机器学习技术实际应用的一个重要瓶颈。标记数据获取通常包括数据采集、数据清洗、数据标注、人工审查几个关键步骤。一般认为,数据标注的开销占了训练数据获取流程中的大部分。为降低标注开销,主动标注技术往往被广泛应用以降低标注代价。它通过主动选择最有价值的样本向专家查询标记,从而显著降低模型提升性能所需要的样本数。然而在部分领域中,数据采集需要运行昂贵设备,从而产生一笔不可忽视的开销。现有主动标注方法往往对数据采集阶段不施加偏好,到数据标注阶段再进行数据选择[Settles,Burr.Activelearning literature survey.(2009).],这将导致采集的数据无法完全被利用,造成大量成本浪费。少数主动类别选择方法提出采集特定类别的样本,例如[Lomasky,Rachel,etal.Active class selection.European Conference on Machine Learning.(2007).]方法,但该方法没有考虑样本本身的信息量,所采集的样本对模型提升效果无法达到最优,仍然存在开销浪费的风险。部分基于样本生成的方法[Zhu,Jia-Jie,and José Bento.Generative adversarial active learning.arXiv preprint arXiv:1702.07956(2017).][Ducoffe,Melanie,and Frederic Precioso.Adversarial active learningfor deep networks:a margin based approach.arXiv preprint arXiv:1802.09841(2018).],面临着所生成样本不具备语义信息的风险,在实际任务中难以应用。综上所述,现有技术手段没有充分考虑数据采集阶段所产生的开销,将造成大量成本的浪费;部分数据采集方法难以满足实际任务场景的需求,从而无法完全发挥主动数据采集技术的潜能。
发明内容
发明目的:为了提高采集数据的利用率,克服现有技术的不足,本发明提供一种基于文本描述的主动数据采集方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于文本描述的主动数据采集方法,包括以下步骤:
步骤1),给定一个带有n个样本的小型标记数据集合其中,xi为样本,yi为标记;目标模型f;以及预训练好的数据描述生成模型g。利用f在标记集合上进行留一法验证,并利用g对所有标记数据生成文本描述。根据每个样本的预测情况与文本生成情况,选出信息量最高的模式;
步骤2),根据选出的模式,生成对应的查询文本,并向数据采集人员查询;工作人员根据文本描述,主动采集符合特征的数据并进行标注,并将数据加入标记集合中;
步骤3),基于标注数据更新目标模型f,以及数据描述生成模型g;
步骤4),返回步骤1)或结束并输出预测模型f*;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市九一数据技术有限公司,未经南京市九一数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797843.9/2.html,转载请声明来源钻瓜专利网。