[发明专利]一种文本检测模型训练方法、装置、设备及存储介质有效

申请号：	202210040015.5	申请日：	2022-01-14
公开（公告）号：	CN114067321B	公开（公告）日：	2022-04-08
发明（设计）人：	单鼎一	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06V30/146	分类号：	G06V30/146;G06V30/148;G06V10/774;G06V10/82;G06K9/62;G06N3/04
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱佳
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本检测模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种文本检测模型训练方法、装置、设备及存储介质，可应用于地图领域、车载场景、人工智能、辅助驾驶等各种场景，该方法包括：获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象。基于样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型。在训练过程中两种模型相互监督学习，两种模型对应的损失函数共同优化梯度，从而提高训练获得的目标文本检测模型的准确性和鲁棒性。其次，训练获得的目标文本检测模型，通过对图像进行目标检测获得文本对象，不需要进行像素级别的特征聚类，避免了聚类半径带来的问题，从而提高文本检测的准确性和效率。

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种文本检测模型训练方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，场景文本检测技术应运而生，场景文本检测技术指在图像中提取文本内容。

相关技术在进行场景文本识别时，先对图像中的前景和背景进行分离，获得图像中的文本区域，然后对文本区域进行像素级别的特征聚类，获得文本内容。

然而，上述方案高度依赖聚类半径等条件，对离群点较敏感，同一聚类半径很难同时解决大小不同的文本场景，从而导致文本检测的准确性较低。

发明内容

本申请实施例提供了一种文本检测模型训练方法、装置、设备及存储介质，用于提高文本检测的准确性。

一方面，本申请实施例提供了一种文本检测模型训练方法，该方法包括：

获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：

通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及通过所述全局语义分割模型，对所述样本图像进行图像分割，获得至少一个第二预测文本对象；