[发明专利]视频残差解码装置和关联方法在审
申请号: | 202210272626.2 | 申请日: | 2022-03-18 |
公开(公告)号: | CN115115690A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 王任;刘育纶;黄昱豪;王宁绪 | 申请(专利权)人: | 联发科技股份有限公司 |
主分类号: | G06T7/571 | 分类号: | G06T7/571;G06T7/557;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 杨尚 |
地址: | 中国台湾新竹*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 解码 装置 关联 方法 | ||
一种从焦点进行深度估计的方法和系统,包括接收包含焦点信息的输入图像数据,通过AI模型生成中间注意力图,通过归一化函数将中间注意力图归一化为深度注意力图,以及导出输入图像数据的预期深度值,所述输入图像数据包含来自深度注意力图的焦点信息。深度估计的AI模型可以在没有地面实况深度图的情况下进行非监督式训练。一些实施例的AI模型是共享网络,所述共享网络估计深度图以及从具有不同焦点位置的一组图像重构AiF图像。
相关引用
本发明要求在2021年3月23日递交的申请号为63/200,692,标题为“BridgingUnsupervised and Supervised Depth from Focus via All-in-Focus Supervision”的美国临时申请案的优先权,以上申请的全部内容以引用方式并入本发明。
技术领域
本发明涉及图像或视频处理系统中的深度估计,更具体地讲,本发明涉及基于机器学习的使用焦点信息的深度估计。
背景技术
深度估计一直是用于诸如增强现实(Augmented Reality,简称AR)、虚拟现实(Virtual Reality,简称VR)和自动驾驶等下游任务的最基本的计算机视觉主题之一。深度估计使用不同的线索,例如颜色、语义、立体或图像序列中的差异来预测和融合深度图。深度信息使越来越多的摄影和视频会议应用成为可能,例如景深调整、背景替换以及在拍摄照片后改变焦点。在图像或视频捕获设备的最新发展中,主动或被动深度感测技术嵌入在每个捕获设备中以获取深度信息。由于需要专门的硬件,主动深度传感解决方案(例如飞时测距(Time-of-Flight,简称ToF)和结构光)通常更昂贵且更耗电。与主动深度传感技术相比,被动技术(例如双目或多视图立体)成本和功率效率更高,但在无纹理区域更容易出错。
通过直接从输入图像学习深度估计,基于深度学习的立体匹配方法以数据驱动的方式解决了这个问题。但是,它需要大量高质量的配对训练数据,获取这些数据既耗时又昂贵。立体匹配方法遇到的其他一些问题包括不完善的训练数据、合成和不真实的输入图像以及不准确的注册深度图(registered depth map)。一些非监督式学习方法被开发来解决这个问题,这些方法依赖于图像重构损失和一致性损失(consistency loss),而不需要地面实况(ground truth)深度数据。域间隙(domain gap)通过直接使用真实世界立体图像进行训练来缓解,而无需相应的注册深度图。
用于深度估计的另一种相对未充分探索的技术是散焦模糊。焦点深度(或散焦)的任务旨在从聚焦堆栈(focal stack)估计场景的深度图。聚焦堆栈由同一相机在不同焦点位置拍摄的多个图像组成。这允许消费者自动对焦单目相机在没有额外硬件的情况下估计深度值。传统的基于焦点深度优化的方法估计每个像素的锐度水平,以及经常遇到纹理较少的对象或光圈问题。深度学习技术有助于克服这些问题,但需要地面实况深度数据进行监督式训练。使用已注册的深度图获取聚焦堆栈既昂贵又耗时,更不用说通过ToF传感器等硬件解决方案获得的不完美深度数据了。许多工作旨在合成真实数据以解决目标域中对数据的需求,例如,使用合成深度图在合成数据集上合成散焦模糊。然而,用于合成的薄透镜模型能否精确地代表真实世界的光学仍然值得怀疑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联发科技股份有限公司,未经联发科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210272626.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:离子处理方法
- 下一篇:一种杏仁豆腐的制作方法