[发明专利]样本生成方法、装置、设备和存储介质在审
申请号: | 202111290380.3 | 申请日: | 2021-11-02 |
公开(公告)号: | CN114170470A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 曾吉申;杨锐;刘永亮 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06V10/771 | 分类号: | G06V10/771;G06V10/774;G06T5/50;G06T7/00;G16H30/40;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;孙明子 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 生成 方法 装置 设备 存储 介质 | ||
本申请提供一种样本生成方法、装置、设备和存储介质,该方法包括:获取目标任务和目标任务对应的正例样本数据;从正例样本数据中确定与目标任务对应的候选区域,以及确定与目标任务对应的改动内容;融合改动内容和候选区域,以得到目标任务对应的负例样本数据。通过该方案,可以结合目标任务的语义,在收集到的大量正例样本数据的基础上,自适应地生成与该目标任务的语义相适应的负例样本数据,并得到其对应的样本标记信息。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种样本生成方法、装置、设备和存储介质。
背景技术
在许多实际分类或检测场景中,经常会遇到无法获取足够有标签的训练样本的情况。比如在一些涉及隐私、安全等场景,往往可能只有正例标签样本,而异常的细分类样本或者负例样本很难收集并且难以进行精细打标。通过人工制作这些负例样本或者异常类别样本需要耗费极大的人力物力,成本巨大。
比如,在医学图像检测场景中,由于涉及用户隐私数据,因此可以用来进行模型训练的有效标签样本数量非常稀少,特别是针对某种特定疾病的检测,例如对特定肿瘤的检测,往往只有包含数十张标记了检测区域图像的数据集。如此少量的具有标签的样本,很难训练出性能较佳的检测模型。通过人工来生成样本的方式效率很低。
上述问题可以归结为某类别样本数量特别稀少的小样本分类学习问题。如何高效地实现这种小样本学习是亟待解决的问题。
发明内容
本发明实施例提供一种样本生成方法、装置、设备和存储介质,用以高效、准确地生成负例样本数据。
第一方面,本发明实施例提供一种样本生成方法,所述方法包括:
获取目标任务和所述目标任务对应的正例样本数据;
从所述正例样本数据中确定与所述目标任务对应的候选区域,以及确定与所述目标任务对应的改动内容;
融合所述改动内容和所述候选区域,以得到所述目标任务对应的负例样本数据。
第二方面,本发明实施例提供一种样本生成装置,所述装置包括:
获取模块,用于获取目标任务和所述目标任务对应的正例样本数据;
确定模块,用于从所述正例样本数据中确定与所述目标任务对应的候选区域,以及确定与所述目标任务对应的改动内容;
融合模块,用于融合所述改动内容和所述候选区域,以得到所述目标任务对应的负例样本数据。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的样本生成方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的样本生成方法。
第五方面,本发明实施例提供一种样本生成方法,所述方法包括:
获取医学图像检测任务对应的第一医学图像,所述医学检测任务用于检测目标身体部位是否发生设定病变,所述第一医学图像是表明所述目标身体部位为健康状态的医学图像;
基于所述医院图像检测任务,从所述第一医学图像中确定出所述目标身体部位对应的候选图像区域;
获取与所述设定病变对应的病变图像;
将所述病变图像叠加到所述第一医学图像中的所述候选图像区域中,以得到作为负例样本的第二医学图像以及所述第二医学图像的标记信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111290380.3/2.html,转载请声明来源钻瓜专利网。