[发明专利]一种基于扫描的英语作文试卷版面分析方法在审

申请号：	202011514723.5	申请日：	2020-12-21
公开（公告）号：	CN112598004A	公开（公告）日：	2021-04-02
发明（设计）人：	李哲;侯冲;陈家海;叶家鸣;吴波	申请（专利权）人：	安徽七天教育科技有限公司
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	安徽申策知识产权代理事务所(普通合伙) 34178	代理人：	程艳梅
地址：	230000 安徽省合肥市新站区铜***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于扫描英语作文试卷版面分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于扫描的英语作文试卷版面分析方法，基于语义分割网络U-net结构设计，其特征在于，包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。

2.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述Resnet-Block特征提取部分能够在加大网络层数的同时，不增加网络参数的优化难度；在计算机视觉里，特征的等级随着网络深度的加深而变高，提高网络深度是实现好的效果的重要因素之一；然而梯度消散或爆炸成为训练深层次的网络的障碍，导致无法收敛；虽然初始归一化、层输入归一化等方式可以使得网络的深度提升为原来的数倍，然而，目标损失收敛了，但网络却开始退化了，即增加网络层数却导致更大的误差；Resnet-Block结构的设计，使得网络梯度反向传播始终保持较大值，能够保持网络深度的同时，保证网络不退化。

3.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述多尺度特征图融合部分具体描述为：在图像下采样阶段分别保存原始图像尺寸二分之一、四分之一、八分之一和十六分之一大小的特征图，在图像特征上采样的过程中分别融合不同尺度大小的特征图，使用特征通道拼接，然后使用1x1卷积进行特征融合；不同尺度的特征能够分割不同尺寸大小的文本行，尺寸较大特征图能够保留图片中较短文本行特征，每个段落最后一行短文本或者书信格式作文的开头落款文本；尺寸较小特征图由于拥有较大的感受野，能够保留原始图片中长文本行的图像特征；通过1x1卷积进行特征融合能够减少网络参数，融合长短文本所需图像特征，能够有效检测出英语作文图片中不同尺寸的文本行。

4.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述网络输出定义部分具体描述为：输出图像包含7层channel(通道)，即输出特征图为(H/2,W/2,7)维度；其中第一个channel维度表示原始图像文本区域Mask表示，第二和第三维度表示文本区域属于文本开始部分还是结束部分，第四五六七维度则表示文本开头或结尾部分回归的坐标值；根据网络输出第一维度信息确定分割文本位置，根据第二三维度信息确定文本区域头部和尾部，最后根据最后四个维度的坐标信息确定最终文本行位置。

5.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述数据标签预处理部分具体描述为：英语作文试卷中的文本信息与传统扫描文档文本信息稍有区别，传统文档文本行之间具有较明显空隙，行与行之间没有任何粘连，英语作文试卷会包含行与行间隙较小、字符粘连等问题，对于传统分割算法是灾难性的。为了避免GroundTruth(标签)相互重叠，将Ground Truth等长宽等比例缩减20％，在不影响训练收敛情况增大文本行之间间距；同时为了更好预测文本的连续性，需要标注文本行的头尾信息，仅根据头尾信息预测文本行的左上角和右下角边界坐标，能够有效降低计算量并提高坐标回归准确度。

6.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，包括以下具体步骤：

步骤一、数据预处理：由于英语作文试卷文本粘连，文本行间距小的特性，在标注数据时，对原始Ground Truth进行范围缩小，在新Ground Truth中按照一定比例选取文本行头部份像素集合和文本行尾部份像素集合；

步骤二、网络结构设计：针对英语作文答题区域文本分割，使用U-net结构网络加Resnet-Block结构，分别提取原始图像长宽维度的二分之一，四分之一，八分之一和十六分之一高级抽象特征；网络感受野覆盖所有文本尺寸，其中小尺度特征图负责分割大长文本，大尺度特征图负责分割小文本，保证文本分割的召回率；

步骤三、训练目标表示设计：网络的训练目标主要针对网络的输出三个部分，分别是Score map(文本区域置信度)，Side vertex(边界顶点分类)和Side coordinate(边界顶点)；其中文本置信度和边界顶点分类属于分类问题，使用分类损失即可，例如交叉熵损失；边界顶点预测属于回归问题，使用回归损失，例如L1损失，L2损失或者Smooth L1损失等。将三部分损失加权求和作为训练总目标函数进行训练，使用梯度下降法优化参数，寻找最优解；

步骤四、网络输出后处理：根据网络输出文本区域置信度和边界顶点分类确定文本位置，根据头部节点集合内所有点预测的左上角坐标加权平均值确定文本边框的左上角顶点位置，同样根据尾部节点集合内所有点预测的右下角坐标加权平均值确定文本框的右下角顶点位置，根据左上角和右下角坐标信息可以确定文本框位置，根据NMS算法合并多余的重复的文本框，最终得到学生答题文本区域。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽七天教育科技有限公司，未经安徽七天教育科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011514723.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于改进的Q-learning的最优决策方法
下一篇：电容安装组件和服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于扫描的英语作文试卷版面分析方法在审

专利文献下载