[发明专利]提取文字图片及其描述的方法和系统有效
申请号: | 202110368879.5 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113111869B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 郭志新;颜铭萱;贾雨葶;王海文;杨莉娜;李琦;徐辉;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V20/62;G06V30/148;G06V30/19 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 文字 图片 及其 描述 方法 系统 | ||
1.一种提取文字图片及其描述的方法,其特征在于,包括:
步骤S1:解析文件并获取文件中的图片及图片对应的描述信息;
步骤S2:对数据库中已有的图片数据进行人工标注后,对YOLO4目标检测模型进行训练与调试,通过训练后的YOLO4目标检测模型判断获取的图片中是否存在子图;
步骤S3:若图片中不存在子图,则返回图片及其对应描述信息;
步骤S4:将含有子图的图片通过训练后的YOLO4目标检测模型进行检测与切割;
步骤S5:将切割后的子图通过训练后的YOLO4模型进行文本目标检测与切割;
步骤S6:人工生成图片文本数据并进行标注,对文本识别模型CRNN进行训练与调试,将子图上检测出来的图片序号通过调试后的CRNN模型进行文字识别;
步骤S7:根据图片序号识别结果进行图片描述信息的文本拆分及重组;
步骤S8:将子图与其对应的图片子描述对齐,并返回子图及其对应的图片描述;
所述步骤S7包括:
步骤S701:将提取出来的图片描述文本通过Sci-Spacy进行粗粒度的预处理;
步骤S702:将经过Sci-Spacy预处理过的文本以句号为切分标识符,基于正则匹配和规则进行二次切分以及片段重组;
步骤S703:将切分后的文本以分号和冒号为切分标识符,判断是否需要进一步切分。
2.根据权利要求1所述的提取文字图片及其描述的方法,其特征在于,所述步骤S1包括:
步骤S101:在数据库中取出待处理的PDF文件;
步骤S102:使用PDFFigure2对PDF文件进行解析,获取相关图片及PDF的JSON数据;
步骤S103:解析JSON数据,获取图片描述信息。
3.根据权利要求1所述的提取文字图片及其描述的方法,其特征在于,所述步骤S2包括:
步骤S201:将数据库中解析出来的图片使用LabelImg进行人工标注,标记需要检测的图片,并标记类别为子图;
步骤S202:根据标注好的数据按照9:1的比例随机分成训练集数据以及测试集数据,对YOLO4目标检测模型进行训练与调试,并获得对于子图检测的权重网络;
步骤S203:将图片输入到调试后的YOLO4目标检测模型中,若检测子图个数大于1,则图片中包含子图,反之则不包含子图。
4.根据权利要求1所述的提取文字图片及其描述的方法,其特征在于,所述步骤S5包括:
步骤S501:将数据库中解析出来的图片使用LabelImg进行人工标注,标记需要检测的图片,并标记类别为文字序号;
步骤S502:根据标注好的数据按照9:1的比例随机分成训练集数据以及测试集数据,对YOLO4目标检测模型进行训练与调试,并获得对于文字识别的权重网络;
步骤S503:将切割好的子图输入到YOLO4目标检测模型中,进行文本检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110368879.5/1.html,转载请声明来源钻瓜专利网。