[发明专利]提取文字图片及其描述的方法和系统有效
申请号: | 202110368879.5 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113111869B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 郭志新;颜铭萱;贾雨葶;王海文;杨莉娜;李琦;徐辉;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V20/62;G06V30/148;G06V30/19 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 文字 图片 及其 描述 方法 系统 | ||
本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
技术领域
本发明涉及计算机视觉及自然语言处理技术领域,具体地,涉及一种提取文字图片及其描述的方法和系统。
背景技术
目标检测是计算机视觉领域中的一种计算机技术,用于检测具有特定类别的语义对象(例如人、建筑物、动物)。它被广泛用于计算机视觉任务,例如图像注释、活动识别、人脸识别。它也被用于跟踪对象,例如在足球比赛中跟踪足球或跟踪视频中的人。每个对象类别都有自己的特殊特点,目前用于目标检测的方法通常分为基于机器学习的方法或基于深度学习的方法,无法预测图片中是否包含子图或文本。
专利文献CN112528954A(申请号:CN202011564026.0)公开了一种证件图像文字提取方法,包括以下步骤:S1、输入证件图像;S2、通过文字检测模型检测证件图像中的文字位置,并通过标注框标注文字位置;S3、统计证件图像中标注框位置分布情况,判断图像方向并进行调整;S4、建立平面坐标,将标注框按照Y轴进行同行合并、排序,获取每行文字的信息框;S5、将标准模板与信息框对齐,输出信息框与标准模板的交集部分,裁剪输出文字图片;S6、用文字识别模型识别文字图片,提取文字内容。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种提取文字图片及其描述的方法和系统。
根据本发明提供的提取文字图片及其描述的方法,包括:
步骤S1:解析文件并获取文件中的图片及图片对应的描述信息;
步骤S2:对数据库中已有的图片数据进行人工标注后,对YOLO4目标检测模型进行训练与调试,通过训练后的YOLO4目标检测模型判断获取的图片中是否存在子图;
步骤S3:若图片中不存在子图,则返回图片及其对应描述信息;
步骤S4:将含有子图的图片通过训练后的YOLO4目标检测模型进行检测与切割;
步骤S5:将切割后的子图通过训练后的YOLO4模型进行文本目标检测与切割;
步骤S6:人工生成图片文本数据并进行标注,对文本识别模型CRNN进行训练与调试,将子图上检测出来的图片序号通过调试后的CRNN模型进行文字识别;
步骤S7:根据图片序号识别结果进行图片描述信息的文本拆分及重组;
步骤S8:将子图与其对应的图片子描述对齐,并返回子图及其对应的图片描述。
优选的,所述步骤S1包括:
步骤S101:在数据库中取出待处理的PDF文件;
步骤S102:使用PDFFigure2对PDF文件进行解析,获取相关图片及PDF的JSON数据;
步骤S103:解析JSON数据,获取图片描述信息。
优选的,所述步骤S2包括:
步骤S201:将数据库中解析出来的图片使用LabelImg进行人工标注,标记需要检测的图片,并标记类别为子图;
步骤S202:根据标注好的数据按照9:1的比例随机分成训练集数据以及测试集数据,对YOLO4目标检测模型进行训练与调试,并获得对于子图检测的权重网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110368879.5/2.html,转载请声明来源钻瓜专利网。