[发明专利]一种基于改进YOLO v3的古文字及字体识别方法有效
申请号: | 201911277782.2 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111126404B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 董哲康;石杰;高明煜;齐冬莲;林辉品;吴俊洁 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/148;G06V30/19;G06V10/80;G06V10/82;G06T3/40;G06T5/00;G06N3/045;G06N3/0495;G06N3/082 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 yolo v3 古文字 字体 识别 方法 | ||
本发明公开了一种基于改进YOLO v3的古文字及字体识别方法。该方法基于深度学习的目标检测方法,利用深层的神经网络结构,学习到古文字图像中“整体‑部分”的分解关系,通过特征提取网络获得有用的特征信息,并进行检测定位,再将图片的特征信息送入分类器进行分类识别,并使用包围框在图像中框选出古文字的位置。该方法解决了古文字具有复杂的内部结构,以及使用这些特征进行识别时精度低的问题。本方法提出的改进YOLO v3使用ShuffleNet v2作为模型的主干结构,使其更加高效。在对古文字及字体的识别上准确率达到98.81%,并且具有较好的稳定性和良好的鲁棒性,能够应用于古文字文本、碑帖等古文字识别场景。
技术领域
本发明涉及了一种基于深度学习的目标检测算法的图像识别方法,尤其是涉及了一种基于改进YOLO v3的古文字图像识别方法。
背景技术
古文字记录着古时人们的社会生活,对古文字的研究作为钥匙,打开了研究古人的生活的方便之门。古文字学在研究中国古代历史和文化具有重大作用。在一些实物资料如甲骨、青铜器、石碑、古书等上面的文字内容里,包含有许多重要的历史信息,这些古文字的释读有助于对当时社会情况的了解。但是,古文字图像非常复杂,具有丰富性和逻辑性的结构信息。古文字具有复杂的内部结构,笔画多、笔画复杂、文字的相似度高,以及不同时期书写汉字的风格多变,使得古文字的识别比现代文字识别难度更高。目前存在多为现代汉字或者手写汉字识别,光学字符识别,前者识别准确率较低,很难适用于古文字识别,后者可用于古汉字识别但不能识别其字体。
发明内容
为了解决背景技术中的识别准确率问题,本发明提出了一种基于深度学习目标检测算法改进YOLO v3的古文字图像识别方法,能高准确地识别古汉字及其字体并具有良好稳定性。
本发明的技术方案包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLO v3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值分别为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合。Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重。训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911277782.2/2.html,转载请声明来源钻瓜专利网。