[发明专利]物体识别方法及装置在审
申请号: | 201911148201.5 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110942005A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 杨爽 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;H04N21/2187 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;臧建明 |
地址: | 310052 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 物体 识别 方法 装置 | ||
本申请实施例提供一种物体识别方法及装置,该方法包括:获取第一图片,其中,第一图片为包括第一物体的图片。将第一图片输入至检测模型,以使得检测模型输出第一物体的识别信息,其中,识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和第一物体的类别,检测模型为对多组样本训练得到的,每组样本包括样本图片和样本识别信息,样本图片为多种预设条件下的直播场景的图片,样本识别信息包括样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和物体的样本类别。通过根据多种预设条件下的实际直播场景所对应的样本图片以及样本识别信息进行训练得到检测模型,从而能够有效提升检测模型输出的第一图片的识别信息的准确率。
技术领域
本申请实施例涉及计算机技术,尤其涉及一种物体识别方法及装置。
背景技术
为了提升用户观看直播时的观赏体验,通常需要对直播中的物体进行添加动画特效或者背景虚化等处理,因此针对直播场景中的物体识别就显得尤为重要。
目前,现有技术在针对场景进行图片识别时,通常是通过基于OpenCV的图片匹配算法,其中,基于OpenCV的处理方法在简单单一的场景中能够取得良好的效果,然而,针对复杂场景或者识别角度存在偏差的图片,现有技术通常对物体进行识别的准确率较低。
发明内容
本申请实施例提供一种物体识别方法及装置,以克服对物体进行识别的准确率较低的问题。
第一方面,本申请实施例提供一种物体识别方法,包括:
获取第一图片,其中,所述第一图片为包括第一物体的图片;
将所述第一图片输入至检测模型,以使得检测模型输出第一物体的识别信息,其中,所述识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和所述第一物体的类别,所述检测模型为对多组样本训练得到的,每组样本包括样本图片和样本识别信息,所述样本图片为多种预设条件下的直播场景的图片,所述样本识别信息包括所述样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和所述物体的样本类别。
在一种可能的设计中,所述将所述第一图片输入至检测模型之前,所述方法还包括:
获取多张样本图片,其中,所述样本图片为实际直播间场景所对应的图片,所述样本图片包括第二物体;
针对任一张样本图片,将所述样本图片输入至检测模型,以使得检测模型输出第二物体的预测识别信息;
根据所述第二物体的预测识别信息和所述样本识别信息,确定所述检测模型输出的预测识别信息的损失函数值;
判断所述损失函数值是否满足预设阈值,若是,则确定所述检测模型训练完成,若否,则重复执行上述将样本图片输入至检测模型的操作,直至所述检测模型输出的第二物体的预测识别信息的损失函数值满足预设阈值。
在一种可能的设计中,所述获取多张样本图片,包括:
在各个不同的预设条件所对应直播场景下,分别获取多张直播场景的图片;
对获取的多张直播场景的图片分别进行图片增强处理,以得到多张样本图片,其中,所述图片增强处理至少包括:调节饱和度、调节亮度、调节对比度、左右翻转、旋转预设角度。
在一种可能的设计中,所述检测模型为神经网络模型;
所述神经网络模型所包括的特征图尺寸为13×13、26×26以及52×52;
所述52×52的特征图尺寸所对应的边框的尺寸为10×13、16×30以及33×23。
在一种可能的设计中,所述将所述样本图片输入至检测模型之前,所述方法还包括:
根据k-means函数确定所述样本图片所对应的预测边框的初始尺寸;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911148201.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液晶显示器
- 下一篇:一种基于多时相热红外遥感影像的云检测方法