[发明专利]物体识别方法及装置有效
| 申请号: | 201610940596.2 | 申请日: | 2016-10-24 |
| 公开(公告)号: | CN106886781B | 公开(公告)日: | 2020-03-10 |
| 发明(设计)人: | 何凯 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06K9/72 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 物体 识别 方法 装置 | ||
本申请提供物体识别方法及装置,所述方法包括:对待识别的图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。应用本申请实施例,可以实现提高物体识别的准确率。
技术领域
本申请涉及图像识别技术领域,尤其涉及物体识别方法及装置。
背景技术
物体识别技术,广泛应用于例如,在搜索场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体的信息展示;再例如,在购物场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体供用户选择购买。
现有技术中,物体识别主要是通过将待识别图像进行区域划分,得到若干图像区域,每个待识别图像的区域划分结果构成一个图像区域集合;提取每个图像区域的特征,并根据预先通过机器学习算法构建的物体识别模型分别对每个图像区域进行物体识别,这一识别过程通常可以称之为标签推理。为了提高物体识别的准确率,一般可以通过以下方式:
第一,通过挖掘图像区域中更有效的特征,来提高识别的准确率。例如使用深度学习(deep-learning)提取出的特征比尺度不变特征变换(Scale-invariant featuretransform,SIFT)提取的特征更加有效。这样,可以避免不是很有效的特征在识别过程中所引起的干扰。
第二,通过空间视觉上下文信息来提高识别的准确率。所述空间识别上下文信息所基于的假设为:在相邻图像区域之间,属于同一个物体的可能性较大。例如,在识别当前图像区域i时,可以参考其相邻图像区域j,假设相邻图像区域j被标注为牛,那么当前图像区域i同样被标注为牛的可能性要比其它物体要高的多。这样的方式也被称为标签平滑。
然而,这些方式虽然可以部分提高物体识别的准确率,但是整体上物体识别的准确率依然不是很理想,尤其是当图像中内容较为复杂,包含的物体较多的情况下,采用现有技术中物体识别方法的准确率经常无法满足应用需求。
发明内容
本申请提供一种物体识别方法及装置,以解决现有技术中存在的物体识别的准确率不高的问题。
根据本申请实施例提供的一种物体识别方法,所述方法包括:
对待识别的图像进行区域划分,得到图像区域集合;
将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。
可选的,所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。
可选的,所述条件随机场模型为:
其中,Z是预设的归一化常数;是图像区域的特征和被判断物体之间关系的点势函数;所述是基于空间视觉上下文信息的边势函数;是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;是图像区域i被标注为物体k的标签值;是图像区域j被标注为物体k的标签值;是图像I被标注为物体p的标签值。
可选的,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610940596.2/2.html,转载请声明来源钻瓜专利网。





