[发明专利]一种基于分层运动估计的搜索方法及其实现系统有效
申请号: | 201210264933.2 | 申请日: | 2012-07-27 |
公开(公告)号: | CN102790884A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 高志勇;邓刚;张小云;陈立 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04N7/26 | 分类号: | H04N7/26;H04N7/32 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 运动 估计 搜索 方法 及其 实现 系统 | ||
技术领域
本发明属于多媒体的视频编码器硬件实现领域,具体地讲,是一种适用于FPGA与ASIC实现、基于分层运动估计的搜索方法及其实现系统。
背景技术
在视频编码器中,采用运动补偿的帧间预测编码是视频压缩的主要技术,而搜索窗大小、搜索策略、匹配准则直接影响编码器的性能。其中整像元运动估计是视频编码器中最复杂的模块之一,为了满足高清视频编码的实时性,可通过硬件加速来实现编码。视频编码器的硬件实现需要能在复杂度与性能间取得较好的平衡。
基于块匹配的搜索方法主要有全搜索,快速搜索,分级搜索等方法。其中全搜索是在搜索区内逐点搜索,通过准则函数例如SAD(Sum of Absolute Difference)值,即初始值和预测值的绝对误差和,通过对每一个候选运动向量进行计算而选取出SAD值最小的最佳匹配块。当图像分辨率较高,运动比较复杂情况下,需要在较大搜索窗内进行搜索,运算量是相当大的,为了实现实时运算,必须采取并行处理。为了减少搜索次数,又提出了多种快速搜索方法,如二维对数搜索方法、三步搜索法、共轭方向搜索法、正交搜索法、菱形搜索法等。快速搜索法的共同之处在于把使准则函数(SAD)趋于极小的方向视为最小失真方向,并假定准则函数在偏离最小失真方向时是单调递增的,即认为它在整个搜索区内是运动向量的单极点函数,有唯一极小值。快速搜索方法能减少大部分运算量,能显著提升搜索速度,但是率失真性能会有一定的下降,不利于硬件实现,主要是因为快速搜索方法的数据流控制不规整,不能有效利用片上的存储数据。
为此提出的分级搜索方法在减少运算量的同时,可取得接近全搜索的精度和性能,得到真实的运动位移矢量。在分级搜索方法中,先通过对原始图像低通滤波和亚取样得到该图像序列的低分辨率表示,再对所得的低分辨率图像进行全搜索。由于分辨率降低,搜索次数成倍减少,同时单次SAD计算需要计算资源也成倍减小,由此全搜索得到一个最优运动矢量。以该运动矢量作为在原始图像中搜索的起始点,开始进行精细搜索,此步搜索窗大小可相对减小,搜索次数相应减少,最终通过细搜索得到运动位移矢量的估计值。采用分级搜索的优点在于,搜索次数介于全搜索与快速搜索之间,且在各层搜索时可看成是全搜索,这样具有较规整的数据流和控制流,利于硬件实现。已有的基于分层运动估计的硬件通过两次降采样进行搜索,提高了搜索速度,但连续两次4:1降采样后得到的降采样层,由原始图像层的16x16块变为4x4块,这样导致块匹配时由于特征不够明显而容易找到伪最佳匹配块,影响了搜索性能。
发明内容
现有基于硬件实现的视频编码器无论采用全搜索方法还是分层搜索方法,均通过一定程度上牺牲硬件面积来换取速度,若搜索范围增加,则硬件消耗巨大,不利于FPGA或ASIC电路。本发的目的在于提出一种具有接近全搜索性能的分层搜索方法及相应的硬件实现系统,使其具有较高的搜索速度和较好的编码性能,满足高清编码器实时编码的要求。
为实现上述目的,本发明采取如技术下方案:
本发明所述的基于分层运动估计的搜索方法,具体为:将当前帧和参考帧按照比例进行一次降采样,降采样层进行运动估计时,设置候选运动向量的步长为降采样后的2个整像素单位向量。
进一步的,所述降采样得到4路降采样图像,多PE阵列在每一路降采样图像中进行4路并行搜索,同时另3路降采样图像并行搜索。
进一步的,所述方法中片上亮度像素缓存采用分类像素存储来实现降采样的搜索,即按降采样得到4种像素类型交错存储,同时分奇偶行与奇偶宏块列分开存储,共16种像素类型交错存储。
进一步的,所述PE阵列从亮度参考缓存读取数据复用,一次读取两种像素类型的16字节宽数据用于4路PE阵列的数据更新。
本发明中分层搜索的思想是:先将当前帧和参考帧按照比例降采样,L1层是L0层4:1降采样得到的图像,L0层是原图像层。搜索时先在第L1层上进行,候选MV搜索步长为2,计算SAD时候,用了4:1降采样精度,即64个像素点参与了SAD值计算。本发明提出的方案仅通过一次4:1降采样,由原始图像层的16x16块变为8x8块,块匹配的特征较明显;同时设置降采样层的搜索步长为2来降低计算量,满足视频编码器的实时性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210264933.2/2.html,转载请声明来源钻瓜专利网。