[发明专利]基于OCR识别的单证数据提取方法、装置、设备及介质在审
申请号: | 202011478079.0 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112507909A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 庄志强;施光辉;吴思琪;马泽未;李承影;夏永财 | 申请(专利权)人: | 信号旗智能科技(上海)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/72;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200120 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 识别 数据 提取 方法 装置 设备 介质 | ||
1.一种基于OCR识别的单证数据提取方法,其特征在于,包括:
通过OCR识别程序处理单证文档,生成包含若干字符块及其字符坐标信息的XML数据,一个字符块对应一个字符坐标信息;
根据所述字符坐标信息将处于同一行的字符块组成字符组;
通过预设的分词算法从所述字符组提取关键词,生成词块,所述词块包括若干字符块;
根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息;
通过预设除错合并程序处理所述词块和所述词块坐标信息,生成结构化单证数据。
2.如权利要求1所述的基于OCR识别的单证数据提取方法,其特征在于,所述通过OCR识别程序处理单证文档,生成包含若干块及其坐标的XML数据之前,还包括:
获取初始单证文档;
根据预设转换规则转换所述初始单证文档,生成所述单证文档,所述单证文档为预设尺寸的图片数据。
3.如权利要求1所述的基于OCR识别的单证数据提取方法,其特征在于,所述预设除错合并程序包括除错程序和合并程序,所述通过预设除错合并程序处理所述词块和所述词块坐标信息,生成结构化单证数据,包括:
通过所述除错程序消除所述词块中的错误重叠字符块,生成修改后的词块;
通过所述合并程序调整所述修改后的词块对应的词块坐标信息,使相邻行的词块之间的间距保持一致;
根据所述调整后的词块坐标信息和修改后的词块生成结构化单证数据。
4.如权利要求1所述的基于OCR识别的单证数据提取方法,其特征在于,所述预设的分词算法为Trie字典树算法。
5.如权利要求1所述的基于OCR识别的单证数据提取方法,其特征在于,所述词块坐标信息包括l标签、t标签、b标签和t标签;
所述根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息,包括:
基于各个字符块对应的字符坐标信息中l标签的最小值确定所述词块坐标信息的l标签;
基于各个字符块对应的字符坐标信息中r标签的最大值确定所述词块坐标信息的r标签;
基于各个字符块对应的字符坐标信息中b标签的平均值确定所述词块坐标信息的b标签;
基于各个字符块对应的字符坐标信息中t标签的平均值确定所述词块坐标信息的t标签。
6.一种基于OCR识别的单证数据提取装置,其特征在于,包括:
识别模块,用于通过OCR识别程序处理单证文档,生成包含若干字符块及其字符坐标信息的XML数据,一个字符块对应一个字符坐标信息;
字符组模块,用于根据所述字符坐标信息将处于同一行的字符块组成字符组;
分词模块,用于通过预设的分词算法从所述字符组提取关键词,生成词块,所述词块包括若干字符块;
词块坐标模块,用于根据所述词块内各个字符块对应的字符坐标信息确定所述词块的词块坐标信息;
合成单证模块,用于通过预设除错合并程序处理所述词块和所述词块坐标信息,生成结构化单证数据。
7.如权利要求6所述的基于OCR识别的单证数据提取装置,其特征在于,还包括:
获取初始文档模块,用于获取初始单证文档;
格式转换模块,用于根据预设转换规则转换所述初始单证文档,生成所述单证文档,所述单证文档为预设尺寸的图片数据。
8.如权利要求6所述的基于OCR识别的单证数据提取装置,其特征在于,所述合成单证模块包括:
除错单元,用于通过所述除错程序消除所述词块中的错误重叠字符块,生成修改后的词块;
合并单元,用于通过所述合并程序调整所述修改后的词块对应的词块坐标信息,使相邻行的词块之间的间距保持一致;
生成单元,用于根据所述调整后的词块坐标信息和修改后的词块生成结构化单证数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信号旗智能科技(上海)有限公司,未经信号旗智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011478079.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置