[发明专利]一种基于多任务学习的场景理解方法在审

申请号：	201710686296.0	申请日：	2017-08-11
公开（公告）号：	CN107451620A	公开（公告）日：	2017-12-08
发明（设计）人：	夏春秋	申请（专利权）人：	深圳市唯特视科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/14;G06F17/18;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市高新技术产业园***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于任务学习场景理解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及场景理解领域，尤其是涉及了一种基于多任务学习的场景理解方法。

背景技术

场景理解能够有效帮助和提高计算机对于复杂多变的室内外场景的分析和认知能力，是计算机视觉领域的研究热点之一。场景理解通常可以分为局部场景理解和全局场景理解两大类。前者侧重于对场景局部区域的分布和类别进行分析和描述，诸如场景中各种不同类别局部目标的识别和定位；后者侧重于理解场景的全局属性，比如场景分类。两者都能从不同认知层面加深计算机对于未知场景的认知和把握程度，在智能监控、信息检索和移动机器人等领域具有广阔的应用前景，因而具有重要的研究价值和意义。同时，在交通运输方面，由于可以通过分割识别行人、车辆、路况、交通信号灯、交通警告标志等，从而辅助驾驶系统技术，无人驾驶智能车辆技术等。在农业上可用于资源普查、农业规划、农作物产量估计、病虫害检测、森林调查等许多方面。然而，传统的场景理解方法仅能单独训练每个任务，效率和预测精度都不理想。

本发明提出了一种基于多任务学习的场景理解方法，先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。本发明提出的场景理解模型可以学习多任务权重，优于其他单独训练每个任务的模型，减少了计算量，提高了学习效率和预测精度，并且可以实时运行。

发明内容

针对效率和预测精度都不理想的问题，本发明的目的在于提供一种基于多任务学习的场景理解方法，先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。

为解决上述问题，本发明提供一种基于多任务学习的场景理解方法，其主要内容包括：

(一)同方差不确定性的多任务学习；

(二)多任务似然函数；

(三)场景理解模型。

其中，所述的同方差不确定性的多任务学习，多任务学习涉及到针对多个目标优化模型的问题；组合多目标损失的方法是执行每个单独任务的损失的加权线性和：

但是模型性能对于权重w_i的选择非常敏感；在一些最佳权重下，联合网络比单独训练的单独网络更好，单独执行每个任务的训练，在图像的两个边缘看到单个任务中的模型的性能：w＝0和w＝1；在接近于最优权重值时，网络在其中一个任务上表现较差，因此需要学习最优的任务权重。

进一步地，所述的不确定性，在贝叶斯模型中，可以模拟不确定性的两种主要类型：

(1)认知不确定性是模型中的不确定性，它捕获了由于缺乏训练数据而导致模型不了解的地方；可以用增加的训练数据解释；

(2)偶然不确定性捕获了对数据无法解释的信息不确定性；偶然不确定性可以解释为具有以更高的精度观察所有解释变量的能力；

偶然不确定性可再次分为两个子类别：

(1)数据依赖性或异方差的不确定性依赖于输入数据的偶然不确定性，并且可能是模型的输出；

(2)任务依赖性或同方差不确定性是不依赖于输入数据的偶然不确定性；它不是模型输出，而是对于所有输入数据保持不变的数，并且在不同任务之间变化；因此，称它为依赖任务的不确定性；

在多任务环境中，显示了任务不确定性捕获了任务之间的相对置信度，反映了回归或分类任务固有的不确定性；它还将取决于任务的表示或度量单位；因此建议使用同方差的不确定性作为多任务学习问题中权重损失的基础。

其中，所述的多任务似然函数，推导一个多任务损失函数，该函数基于最大化具有均匀不确定性的高斯似然函数；令f^W(x)为输入x上权重W的神经网络的输出；定义以下概率模型，对于回归任务，将似然函数定义为模型输出给出的平均值的高斯函数：

p(y|f^W(x))＝N(f^W(x),σ²)(2)

其具有观测噪声标量σ；对于分类，常通过Softmax函数压缩模型输出，并从得到的概率向量中采样：

p(y|f^W(x))＝Softmax(f^W(x))(3)

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司，未经深圳市唯特视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710686296.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多任务学习的场景理解方法在审

专利文献下载