[发明专利]用于文本检测的深度学习模型训练方法及文本检测方法有效
申请号: | 202110932789.4 | 申请日: | 2021-08-13 |
公开(公告)号: | CN113642583B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 范森;王晓燕;吕鹏原;章成全;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/26;G06V10/22;G06K9/62;G06V10/774 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;丁芸 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 检测 深度 学习 模型 训练 方法 | ||
本公开提供了用于文本检测的深度学习模型训练方法及文本检测方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。给出了用于文本检测的深度学习模型训练方法,单字符分割子网络输出的单字符分割预测结果,文本行分割子网络输出的文本行分割预测结果,训练后的深度学习模型可以用于文本区域的检测;并且可以同时实现单字符分割及文本行分割的预测,从而能够结合两种文本分割方式来进行文本检测,能够进一步提高文本区域检测的准确性。
技术领域
本公开人工智能技术领域,具体为计算机视觉和深度学习技术领域。
背景技术
随着深度学习技术的发展,基于深度学习模型的文本检测已经广泛应用于工业界和学术界,如旅游即时翻译,纸质文档电子化,招牌识别,图片文字审核等,而要实现对图像中的文本进行检测,首先要确定图像中的文本区域。
发明内容
本公开提供了一种用于文本检测的深度学习模型训练方法及文本检测方法的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种用于文本检测的深度学习模型训练方法,所述方法包括:
获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络;
选取一第一类样本数据及当前选取的第一类样本数据的标签数据;
将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,其中,所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值;
根据当前选取的第一类样本数据的预测结果及标签数据,调整深度学习模型的训练参数,得到训练后的深度学习模型。
根据本公开的第二方面,提供了一种文本检测方法,包括:
获取待检测数据;
将所述待检测数据输入到预先训练的深度学习模型中,得到所述待检测数据的单字符分割预测结果及文本行分割预测结果,其中,所述深度学习模型基于本公开中任一所述的用于文字检测的深度学习模型训练方法训练得到;
根据所述待检测数据的单字符分割预测结果及文本行分割预测结果,确定所述待检测数据中的文本区域。
根据本公开的第三方面,提供了一种用于文本检测的深度学习模型训练装置,所述装置包括:
深度学习模型获取模块,用于获取待训练的深度学习模型,其中,深度学习模型包括单字符预测网络及文本行预测网络,所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络,所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络;
第一类样本数据选取模块,用于选取一第一类样本数据及当前选取的第一类样本数据的标签数据;
预测结果确定模块,用于将当前选取的第一类样本数据输入到深度学习模型中,得到当前选取的第一类样本数据的预测结果,其中,所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值;
训练参数调整模块,用于根据当前选取的第一类样本数据的预测结果及标签数据,调整深度学习模型的训练参数,得到训练后的深度学习模型。
根据本公开的第四方面,提供了一种文本检测装置,包括:
待检测数据获取模块,用于获取待检测数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110932789.4/2.html,转载请声明来源钻瓜专利网。