[发明专利]一种通用表格的OCR训练数据生成方法在审
申请号: | 202210814223.6 | 申请日: | 2022-07-11 |
公开(公告)号: | CN115205871A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 蔡志旻;沈峰;魏建刚;李小锐 | 申请(专利权)人: | 南京润和润云科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/412 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 李晓 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 表格 ocr 训练 数据 生成 方法 | ||
本发明公开了一种通用表格的OCR训练数据生成方法,通过各领域的语料库进行语料拆分,生成表格内文本,包括键型、值型、长文本型;利用随机的表格元类型和表内文本,构成表格的纯文本表示,即生成字符串表格;将字符串表格转写到空白图片上,同时生成表格图片和标注文本与单元格的位置信息,即生成图片表格;进行表格图像的后处理,将生成的表格图片和位置信息通过多种后处理器进行变化以模拟真实场景的效果。本发明能够保障表格检测用数据集的完备性、准确性和多样性,为构建良好的通用表格OCR训练数据打下坚实的基础。
技术领域
本发明涉及光学字符识别技术领域,尤其涉及一种通用表格的OCR训练数据生成方法。
背景技术
目前,在任何需要将图片中的表格内容提取出的应用中,一般采用表格检测模型进行表格检测,并在表格检测结果的基础上在进行后续的文本识别与表格重建。其中,表格检测模型是由大量的数据集训练得到。一般来说,表格检测用数据集直接从电子文档里提取或动用大量的人力进行表格图片的标注工作。现有技术中至少存在如下问题:现有的表格检测用数据集获取方法,电子文档内表格过于规整,人力标注的表格不保证标注数据的完全正确,即无法保障数据的完备性、准确性和多样性。
鉴于此,本发明提供一种通用表格的OCR训练数据生成方法,能够保障表格检测用数据集的完备性、准确性和多样性。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种通用表格的OCR训练数据生成方法。
为实现本发明的目的,本发明所采用的技术方案是:
一种通用表格的OCR训练数据生成方法,包括步骤:
S1:通过各领域的语料库进行语料拆分,生成表格内文本,包括键型、值型、长文本型;
S2:利用随机的表格元类型和表内文本,构成表格的纯文本表示,即生成字符串表格;
S3:将字符串表格转写到空白图片上,同时生成表格图片和标注文本与单元格的位置信息,即生成图片表格;
S4:进行表格图像的后处理,将生成的表格图片和位置信息通过多种后处理器进行变化以模拟真实场景的效果。
进一步地,步骤S1中,语料拆分的具体步骤如下:
S11:读取各领域语料库,初始化键集、值集、长文本集为空;
S12:遍历语料库中的所有字符串,按行分割得到语句列表;
S13:遍历语句列表,如果语句长度大于阈值,加入长文本集;并将语句拆分成词加入词列表;
S14:剔除词列表中的停用词,并统计各词的出现次数和词性;将高频实词放入键集,其余词放入值集;
S15:语料拆分完成得到各领域的键集、值集和长文本集。
进一步地,步骤S2中,多种表格元类型,包括单行文字类型T1、多行文字类型T2、单个键值对类型T3、多个键值对类型T4、单键多选项类型T5、多行多列类型T6、跨行跨列类型T7、多级表头类型T8。
进一步地,各类型字符串表格生成方法如下:
S21:T1型子程序
S211:取字符串text,计算长度为L;
S212:设置左右默认边距(即填充空格数量)lpad=1,rpad=1;
S213:左右边界符为║,上下界符为═,左上界符为右上界符为右下界符为左下界符为
S213:得到T1型的表格多行字符串表示为:第一行为第二行为║+”+text+”+║;第三行为
S22:T2型子程序
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京润和润云科技有限公司,未经南京润和润云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210814223.6/2.html,转载请声明来源钻瓜专利网。