[发明专利]文本检测模型的训练方法、装置、可读存储介质及设备有效
申请号: | 202110255729.3 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112686218B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 王德强;刘霄;熊泽法 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100872 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 模型 训练 方法 装置 可读 存储 介质 设备 | ||
本发明实施例提供一种文本检测模型的训练方法、装置、可读存储介质及设备。训练方法包括:将待处理样本图像输入卷积网络模型,得到预测值;获取样本图像的标注值;根据标注值、预测值以及损失函数得到预测损失;以及根据预测损失调整卷积网络模型的参数;损失函数包括简单样本判定函数和权重系数函数;简单样本判定函数用于过滤预测置信度大于预设第一阈值的样本图像,以及预测置信度小于预设第二阈值的样本图像,权重系数函数用于调节未被过滤样本图像的权重。本发明实施例可以过滤掉简单正样本和简单负样本,并结合权重值的调节,使模型能关注更有价值的样本图像。
技术领域
本发明涉及文本检测模型的训练技术领域,尤其涉及一种文本检测模型的训练方法、装置、可读存储介质及设备。
背景技术
在智能化教育场景中,图像文本区域的定位是进行文本识别和内容理解的前置环节,文本行的检测精度直接影响到后续任务的处理效果。目前,基于深度学习的文本检测模型分为两大类:基于预设框的回归方法和基于文本区域的像素分割方法。其中,基于文本区域的像素分割方法适应性强,对细长文本、弯曲文本优势显著。基于像素分割方法的文本检测模型中,文本分割任务将图像分割为文本区域和非文本区域,是典型的二分类任务,因此,像素分割方法的文本检测模型训练过程的损失函数多选用二分类交叉熵。
但是,在计算机视觉任务中,样本不平衡是困扰模型收敛的一个关键因素,很容易造成模型过度拟合样本数量多的类别,从而引起样本数量少的类别训练不充分。特别地,在像素分割方法的文本检测任务中,属于文本区域的像素点总量远少于非文本区域像素点总量,训练过程面临严重的类别不平衡问题。此外,对于同样属于同类别的像素点,也存在难易样本的区别,例如,多数情况下,文本区域中心附近的像素点比文本区域边界附近的像素点更容易预测。
针对正负样本不平衡问题,常见的做法是控制正负样本的比例或者对不同的样本引入不同的权重,从而缓解不平衡问题带来的性能下降。例如,OHEM(在线难例样本挖掘)、FocalLoss等方法。OHEM方法通过设计新的样本采样策略,根据负样本的损失函数计算值进行排序,只取数值大的样本,同时控制正负样本数量为1:3。这种方法能够舍弃掉大量简单的负样本,促使模型更加关注正样本和困难的负样本,但对于教育场景的文本检测任务来说,存在一些密集分布的文本行,这类图像中正样本数量多,也存在大量的简单正样本,OHEM方法单纯过滤掉简单的负样本,却没有对简单正样本做处理,极容易造成模型无法关注有价值的困难正样本。
对于难易样本不平衡问题,FocalLoss方法根据样本的预测置信度,将训练样本划分为简单样本和困难样本,并采用动态加权的策略,自适应调整每个样本的权重,从而缓解难易样本的不平衡问题。但是,FocalLoss方法的难易样本划分标准过度依赖模型预测的置信度,当某个训练样本存在错误标注时,FocalLoss方法的自适应加权策略,不同样本之间权重差异大,容易造成不稳定的训练过程,甚至带来模型训练发散的问题。特别是分割方法的文本检测任务,文本区域与非文本区域没有清晰的纹理边界,标注过程必然存在大量的噪声,依赖置信度界定难易样本的FocalLoss方法很难发挥作用。
发明内容
为了解决上述技术问题中的至少一个,本发明实施例提供了一种文本检测模型的训练方法、装置、可读存储介质及设备,对于密集文本行定位检测,可以过滤掉简单正样本和简单负样本,并结合权重值的调节,使模型能关注更有价值的样本图像。
一方面,本发明实施例提供一种文本检测模型的训练方法,包括:
将待处理样本图像输入卷积网络模型,得到预测值;
获取样本图像的标注值;
根据所述标注值、所述预测值以及损失函数得到预测损失;以及
根据所述预测损失调整所述卷积网络模型的参数;
其中,所述损失函数包括简单样本判定函数和权重系数函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255729.3/2.html,转载请声明来源钻瓜专利网。