[发明专利]一种扩充目标识别的训练数据的图像合成方法有效

申请号：	201810260915.4	申请日：	2018-03-28
公开（公告）号：	CN108492343B	公开（公告）日：	2021-09-21
发明（设计）人：	毛克明;张维益;崔培楠;宋杰	申请（专利权）人：	东北大学
主分类号：	G06T11/00	分类号：	G06T11/00;G06T7/194;G06K9/62
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种扩充目标识别训练数据图像合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种扩充目标识别的训练数据的图像合成方法，涉及计算机视觉技术领域。该方法针对特定生产场景中的图像数据，进行规模和种类统计，采用K‑Means聚类区分前景图像与底图，将前景与底图以及带有标记的特定场景数据集进行合成，用合成数据来扩充图像数据集。本发明的方法能够自动爬取相关素材图片并将所需素材提取并合成到指定的用户特定场景下，从而在短时间、低成本下获得一定规模的合成数据集达到扩充数据集从而提高其鲁棒性，为增强深度学习模型识别能力提供辅助。

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种扩充目标识别的训练数据的图像合成方法。

背景技术

近年来，随着硬件计算能力的不断发展以及高性能的GPU不断升级，人工智能技术的前景又变得明朗起来。其中，尤其以深度学习的计算机视觉领域受此次改变而获益良多。像人脸识别、图像识别、图像分类、人脸检测、图像分割等基本的图像处理算法都隶属于计算机视觉领域的技术。另一方面，随着信息时代的快速发展，海量数据的产生也为深度学习的飞速前进奠定基础。影响深度学习模型效果好坏的最重要的一个因素便是数据。海量的数据代表着模型的强泛化能力，相反，少量的数据会使得模型面临过拟合或者欠拟合的常见问题。使得模型在实际应用场景的表现差强人意。

然而，虽然大数据时代产生了海量的视频图片数据，但是随之而来的是内容的复杂性，多样性，冗余性。并且远远达不到作为深度学习可用的数据集标准，现在流行的主流深度学习框架都是以监督学习为基础的。这就意味着无论是分类问题还是回归问题，训练数据集的数据是需要标注的，在即使是清洗过的海量数据集里仍然没有标记信息。而这一部分是需要人工来完成。比如比较著名的ImageNet数据库。面对海量的未标记图像视频数据，其数量级一般在数亿级别以上，如果全部用人工来完成标记，所耗费的人工成本就是一个天文数字，对于任何一家公司来说都是难以承受的，即使抛开人工成本不算，人工标记所花费的时间成本都是完全超过大多数的科技研发公司开发的迭代周期，而超过项目的生命周期对于任何公司来说意味着亏损，这是无法容忍的。所以目前行业的主要的训练数据构成是大部分来源于开源数据库，少部分由人工标注(特定的应用场景除外)。然而开源数据库的数据的分布与特征往往与特定的应用场景相差甚远，模型效果自然相差很多。

因此，针对目前深度学习领域的现状，由于对标注且准确的训练数据的极度匮乏，急需要一种可以针对指定应用场景的快速扩充合成训练数据集的方法。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种扩充目标识别的训练数据的图像合成方法，在短时间内辅助深度学习的各种框架以及算法在缺少特定的训练数据集时，可以进行数据的快速合成达到大规模的数据扩充，从而提升深度学习的开发效率，并使得训练得到的模型在特定的应用场景具有更好的泛化性和鲁棒性，从而为识别技术可以在用户场景具有一定的实用性奠定基础。

为解决上述技术问题，本发明所采取的技术方案是：一种扩充目标识别的训练数据的图像合成方法，包括以下步骤：

步骤1、根据实际生产场景，进行如下定义：

生产场景：具有在实际环境(背景信息)和所需要识别的物体并带有标记的图像的集合；

原始图像：通过各种方式获取的带有生产场景信息的图像；

图像尺寸：训练数据中，图像的具体尺寸：宽*高)；

底图：含有生产场景的主要背景信息的图像；

对象：需要检测并识别的物体；

前景图像：从原始图像中分离并提取带有对象并具有标记的图像；

合成图像：含有带有标记信息的对象的底图；

根据需求分别确定底图、图像尺寸、对象，并获得原始图像；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载