[发明专利]一种手写古文字检测方法有效
申请号: | 202010455027.5 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111832390B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 李然康;陈善雄;邱小刚;赵富佳;王定旺 | 申请(专利权)人: | 西南大学 |
主分类号: | G06V30/32 | 分类号: | G06V30/32;G06V10/82;G06V30/40;G06V30/18;G06V30/164;G06V30/19;G06N3/04 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 刘海艳 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手写 古文字 检测 方法 | ||
1.一种手写古文字检测方法,其特征在于,包括:
使用基于CNN的古文本检测ATD网络对输入图像和对应的标注信息进行特征学习,随后基于已标注的数据和已学习的数据对图像中的字符进行分类,根据分类结果生成古文本检测AT类候选框;
使用基于NMS的MSER模型对输入的图像通过非局部均值滤波进行预处理,再使用MSER算法提取文本轮廓,然后由最小外接矩形生成候选框,并由NMS筛选出最精确的古文本检测MT类候选框;
古文本检测ATD网络以及MSER模型同步输出同一个字符的两个不同的候选框,经过合并算法对上述两个候选框进行合并,得到最终的古文本检测FT类文本框;
所述合并算法的具体操作为输入AT,MT,输出FT,如果AT,MT,FT非空,执行,对每个MT里的i,执行,将i与i个的领域内的最大分数MAXSCORE赋值给γ1i,将i与i个的领域内的最大置信度MAXBOXINDEX赋值给δ1i;如果γ1i为真,则将i与i个的反向领域内的最大分数MAXSCORE赋值给γ2i,将i与i个的反向领域内的最大置信度MAXBOXINDEX赋值给δ2i;如果γ2i为真,则将i与δ1i、δ2i合并,并赋值给k,否则将i与δ1i赋值给k;将AT与k的并集赋值给新AT,对每个AT与MT并集当中的i,执行将MT与i的并集赋值给新MT。
2.根据权利要求1所述的手写古文字检测方法,其特征在于,在检测过程中,首先将文本图像进行分类处理,具体分为三类,分别为T类、PT类、B类;
其中,T类指完整的文本实例,PT类指文本图像中被污点覆盖或部分缺失的文本实例,B类指图像数据集中不属于上述两个类的所有对象,即图像中的背景。
3.根据权利要求2所述的手写古文字检测方法,其特征在于,所述古文本检测ATD网络的架构包括卷积层、上采样层以及横向连接;
其中,卷积层为网络的前部分,其包括conv1到conv6六个卷积块,每个卷积块包含一组连续的层,每层由具有相同分辨率的特征图组成,每个卷积块由一个MAXPOOL层与另一个块分开,每个卷积块的特征图的分辨率是前一块的一半,深度是前一块的两倍,早期的特征映射捕获低层特征,而深度特征映射捕获语义信息非常强的特征;
上采样层用于提高经过池化后的卷积块中特征图的分辨率,相对应的,上采样层同样有六个块,包含unconv1到unconv6六个块,在每个块中间使用UNPOOL与另一个块分开,在上采样的特定阶段的特定块中的特征映射具有与卷积的相应阶段的相应层中的映射相同的分辨率和深度;
横向连接存在于卷积层和上采样层的相应阶段之间,横向连接用于增强由卷积映射提供的具有良好定位能力和上采样词干特征映射中的强语义信息,每个编号相同的conv和unconv中间都有一个单独的横向连接,其中卷积阶段的最后一层的特征映射连接到上采样阶段中的相应特征映射,在横向连接中,为了减小结果映射的深度,使用1×1滤波器来将两个特征映射连接起来;
通过使用1×1滤波器对最终特征映射进行卷积得到输出映射,输出映射的深度为八个通道,对于输出特征图中的像素Pi,八个通道表示不同的预测,其中前四个通道预测Pi检测到的候选框的2个中心坐标、高度和宽度,第五个通道预测对象的候选文本框的置信度,最后三个通道分别给出包含一个T、PT和B三个类对应的文本框的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010455027.5/1.html,转载请声明来源钻瓜专利网。