[发明专利]一种基于深度学习的图书馆自动盘书方法及系统在审
申请号: | 202110883939.7 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113569871A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 董朝轶;王拴乐;陈晓艳 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 010051 内蒙古*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 图书馆 自动 方法 系统 | ||
本发明公开一种基于深度学习的图书馆自动盘书方法及系统,方法包括:对原始图像进行预处理获得样本数据集;利用标签工具对样本数据集中书名和书名坐标进行标注获得标签数据集;采用U‑net网络将标签数据集输入到EAST网络模型中进行训练获得预测模型;对测试集中的书籍进行书名坐标标注获得多个书名坐标标注图像;采用python算法对多个书名坐标标注图像分别进行裁剪;将裁剪后的多个书名坐标标注图像输入所述预测模型中进行文字识别,获得测试集中各书籍对应的书名。本发明将U‑net网络与EAST网络模型相结合获得预测模型,既可以利用不同级别的特征提高识别精度,又可以节省计算成本,实现结构轻量化。
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于深度学习的图书馆自动盘书方法及系统。
背景技术
由于场景图像中包含着丰富的文本信息,可以在很大程度上帮助人们去捕获和认知场景图像的内容及含义。如果使用计算机自动识别场景图像中包含的文本内容,并应用于盲人辅助导航、无人驾驶导航、安全保卫、危机预防及处理等领域,将给人们的工作生活带来极大便利。
自然场景文本定位被认为是文档分析领域中最困难也是最有价值的一个难题。自然图像中的文本越来越受到计算机视觉界的关注,因为它在文档分析、场景理解、机器人导航和图像检索等方面有大量的实际应用。虽然之前的研究在文本检测和文本识别方面都取得了显著的进展,但针对大差异的文本或背景高度复杂的文本仍然存在识别精度低的问题。
发明内容
本发明的目的是提供一种基于深度学习的图书馆自动盘书方法及系统,以提高识别精度。
为实现上述目的,本发明提供了一种基于深度学习的图书馆自动盘书方法,所述方法包括:
步骤S1:获取各书籍对应的原始图像;
步骤S2:对各书籍对应的所述原始图像进行预处理,获得样本数据集;
步骤S3:利用标签工具对所述样本数据集中书名和书名坐标进行标注,获得标签数据集;
步骤S4:采用U-net网络将所述标签数据集输入到EAST网络模型中进行训练,获得预测模型;
步骤S5:对测试集中的书籍进行书名坐标标注,获得多个书名坐标标注图像;
步骤S6:采用python算法对多个所述书名坐标标注图像分别进行裁剪;
步骤S7:将裁剪后的多个所述书名坐标标注图像输入所述预测模型中进行文字识别,获得测试集中各书籍对应的书名。
可选地,所述利用标签工具对所述样本数据集中书名和书名坐标进行标注,获得标签数据集,具体为:
利用labelimg标签工具,将有效的样本图像中文本行的坐标按照从左上角开始顺时针的方向存储在txt格式的文本中,获得标签数据集。
可选地,所述EAST网络模型包括:特征提取层、特征融合层和特征输出层;
所述特征提取层用于对已标注各书名以及各书名对应书名坐标的图像进行特征提取,获得不同尺度特征图像;
所述特征融合层用于采用U-net网络对不同尺度特征图像进行融合,获得融合图像;
所述特征输出层用于根据融合图像输出检测框位置。
可选地,所述对各书籍对应的所述原始图像进行预处理,获得样本数据集,具体为:
利用剪辑工具对各书籍对应的所述原始图像进行分割处理,获得样本数据集。
本发明还提供一种基于深度学习的图书馆自动盘书系统,所述系统包括:
获取模块,用于获取各书籍对应的原始图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110883939.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种火龙果种植用种子催芽设备
- 下一篇:一种回差式RV减速器