[发明专利]一种基于扫描的英语作文试卷版面分析方法在审
| 申请号: | 202011514723.5 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112598004A | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 李哲;侯冲;陈家海;叶家鸣;吴波 | 申请(专利权)人: | 安徽七天教育科技有限公司 |
| 主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 安徽申策知识产权代理事务所(普通合伙) 34178 | 代理人: | 程艳梅 |
| 地址: | 230000 安徽省合肥市新站区铜*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 扫描 英语 作文 试卷 版面 分析 方法 | ||
1.一种基于扫描的英语作文试卷版面分析方法,基于语义分割网络U-net结构设计,其特征在于,包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。
2.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法,其特征在于,所述Resnet-Block特征提取部分能够在加大网络层数的同时,不增加网络参数的优化难度;在计算机视觉里,特征的等级随着网络深度的加深而变高,提高网络深度是实现好的效果的重要因素之一;然而梯度消散或爆炸成为训练深层次的网络的障碍,导致无法收敛;虽然初始归一化、层输入归一化等方式可以使得网络的深度提升为原来的数倍,然而,目标损失收敛了,但网络却开始退化了,即增加网络层数却导致更大的误差;Resnet-Block结构的设计,使得网络梯度反向传播始终保持较大值,能够保持网络深度的同时,保证网络不退化。
3.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法,其特征在于,所述多尺度特征图融合部分具体描述为:在图像下采样阶段分别保存原始图像尺寸二分之一、四分之一、八分之一和十六分之一大小的特征图,在图像特征上采样的过程中分别融合不同尺度大小的特征图,使用特征通道拼接,然后使用1x1卷积进行特征融合;不同尺度的特征能够分割不同尺寸大小的文本行,尺寸较大特征图能够保留图片中较短文本行特征,每个段落最后一行短文本或者书信格式作文的开头落款文本;尺寸较小特征图由于拥有较大的感受野,能够保留原始图片中长文本行的图像特征;通过1x1卷积进行特征融合能够减少网络参数,融合长短文本所需图像特征,能够有效检测出英语作文图片中不同尺寸的文本行。
4.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法,其特征在于,所述网络输出定义部分具体描述为:输出图像包含7层channel(通道),即输出特征图为(H/2,W/2,7)维度;其中第一个channel维度表示原始图像文本区域Mask表示,第二和第三维度表示文本区域属于文本开始部分还是结束部分,第四五六七维度则表示文本开头或结尾部分回归的坐标值;根据网络输出第一维度信息确定分割文本位置,根据第二三维度信息确定文本区域头部和尾部,最后根据最后四个维度的坐标信息确定最终文本行位置。
5.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法,其特征在于,所述数据标签预处理部分具体描述为:英语作文试卷中的文本信息与传统扫描文档文本信息稍有区别,传统文档文本行之间具有较明显空隙,行与行之间没有任何粘连,英语作文试卷会包含行与行间隙较小、字符粘连等问题,对于传统分割算法是灾难性的。为了避免GroundTruth(标签)相互重叠,将Ground Truth等长宽等比例缩减20%,在不影响训练收敛情况增大文本行之间间距;同时为了更好预测文本的连续性,需要标注文本行的头尾信息,仅根据头尾信息预测文本行的左上角和右下角边界坐标,能够有效降低计算量并提高坐标回归准确度。
6.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法,其特征在于,包括以下具体步骤:
步骤一、数据预处理:由于英语作文试卷文本粘连,文本行间距小的特性,在标注数据时,对原始Ground Truth进行范围缩小,在新Ground Truth中按照一定比例选取文本行头部份像素集合和文本行尾部份像素集合;
步骤二、网络结构设计:针对英语作文答题区域文本分割,使用U-net结构网络加Resnet-Block结构,分别提取原始图像长宽维度的二分之一,四分之一,八分之一和十六分之一高级抽象特征;网络感受野覆盖所有文本尺寸,其中小尺度特征图负责分割大长文本,大尺度特征图负责分割小文本,保证文本分割的召回率;
步骤三、训练目标表示设计:网络的训练目标主要针对网络的输出三个部分,分别是Score map(文本区域置信度),Side vertex(边界顶点分类)和Side coordinate(边界顶点);其中文本置信度和边界顶点分类属于分类问题,使用分类损失即可,例如交叉熵损失;边界顶点预测属于回归问题,使用回归损失,例如L1损失,L2损失或者Smooth L1损失等。将三部分损失加权求和作为训练总目标函数进行训练,使用梯度下降法优化参数,寻找最优解;
步骤四、网络输出后处理:根据网络输出文本区域置信度和边界顶点分类确定文本位置,根据头部节点集合内所有点预测的左上角坐标加权平均值确定文本边框的左上角顶点位置,同样根据尾部节点集合内所有点预测的右下角坐标加权平均值确定文本框的右下角顶点位置,根据左上角和右下角坐标信息可以确定文本框位置,根据NMS算法合并多余的重复的文本框,最终得到学生答题文本区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽七天教育科技有限公司,未经安徽七天教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011514723.5/1.html,转载请声明来源钻瓜专利网。





