[发明专利]一种基于分割和形变LSTM的手写体蒙古文检测和识别方法在审
申请号: | 202110689571.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113420760A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 萨和雅;麻泽蕊;仁庆道尔吉;代钦 | 申请(专利权)人: | 内蒙古师范大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/38;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010010 内蒙古自*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分割 形变 lstm 手写体 蒙古文 检测 识别 方法 | ||
1.一种基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,包括如下步骤:
第一步:获取手写体蒙古文图像作为输入图像,手写体蒙古文检测模型为基于分割的任意形状文本检测器SAST,检测复杂环境中手写体蒙古文,得到划分文本候选框的图像;
第二步:将进行过文本检测的手写体蒙古文图像,即划分文本候选框的图像作为RoIRotate模块的输入图像,对定向的特征区域进行变换以获得轴对齐的特征图;
第三步:获取独立的特征图作为输入图像,使用形变LSTM结合CTC模块构成手写体蒙古文识别模型,实现文字识别。
2.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述任意形状文本检测器SAST利用基于全卷积网络的上下文多任务学习框架来学习文本区域的各种几何特征,从而构造文本区域的多边形表示,所述基于分割的任意形状文本检测器SAST将高层次的目标知识和低层次的像素信息融合在一个镜头中,从而以高精度和高效的方式检测任意形状的场景文本。
3.根据权利要求1所述基于分割和形变LSTM的手写体蒙古文检测和识别方法,其特征在于,所述第一步具体步骤如下:
步骤1:从输入图像中提取特征
使用RESNET-50作为SAST的主干网络,并通过全连接网络将文本区域的多种属性在一个多任务学习中同时提取出来,属性包括:文本中心线TCL、文本边界偏移TBO、文本中心偏移TCO和文本顶点偏移TVO;即,将包含TCL、TBO、TCO、TVO映射信息的特征图作为一个多任务问题进行学习,并将所得特征图依次命名为TCL特征图、TBO特征图、TCO特征图和TVO特征图,卷积网络输出通道分别设置为{1,2,8,4},用于预测和提取TCL特征图、TBO特征图、TCO特征图和TVO特征图;同时,引入上下文注意力模块(Content-Attention-Block,CAB)以聚合上下文信息从而实现特征增强;其中,所述TCL特征图作为区分文本/非文本的单通道分割特征图,描述输入图像某像素点属于文本中心线像素点的概率;TCO特征图描述文本中心点偏置,即输入图像某像素点距其所属的文本实例矩形框中心的水平和垂直方向距离;TVO特征图描述文本四顶点偏置,即输入图像中某像素点距其所属的文本实例矩形框四顶点水平及垂直方向的距离;TBO特征图描述文本边界偏置,即对输入图像中,某像素点距其所属的文本实例上下边界框的水平及垂直方向距离进行描述;
步骤2:输入图像文本实例分割
使用四点赋值机制,利用具有高级对象信息的TCL、TCO和TVO映射生成文本实例分割:
首先,基于生成的TCL特征图和TVO特征图检测候选文本四边形,形成的候选文本四边形将用于组合形成文本检测框;步骤为:将获取的TCL进行阈值过滤,将置信率低于阈值的像素点剔除,根据TVO特征图,使处理过的TCL特征图的每个像素点得到对应的文本矩形框四顶点坐标,并进行非最大值抑制NMS,得到所需的文本实例矩形框及其中心点,作为高层级目标知识;
然后,根据TCO特征图,计算TCL中属于文本的像素点所属文本实例的几何中心点,该中心点将作为低层级像素信息;当计算所得的几何中心点与之前所得矩形框中心点重合或相近时,该像素点将被归类给之前所得矩形框对应的文本实例,同时,所有高于阈值的像素点划分为不同的文本实例;
步骤3:生成文本候选框,实现反向传播
经过步骤2,得到被TVO、TCO修正后的、准确的TCL文本中心线,对文本中心线进行自适应采样,即采样点的间距相同,到的采样点数目与文本线的长度有关,根据文本边界偏置图TBO所提供的信息,计算文本中心线的采样点上的上下边界定位点,将所有的边界定位点按照从左上角开始的顺时针方向依次进行连接,得到最终的文本边界框,其中,多于四个顶点的多边形由多个连接的四边形候选框划定,对于非TCL特征图像素,将其对应的几何属性设置为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古师范大学,未经内蒙古师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110689571.0/1.html,转载请声明来源钻瓜专利网。