[发明专利]针对医学资料图片的文本识别方法和装置有效
申请号: | 201710305560.1 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107315989B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 周列淳;岳智磊;刘泓;江岩 | 申请(专利权)人: | 天方创新(北京)信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G16H30/20 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 医学 资料 图片 文本 识别 方法 装置 | ||
1.一种针对医学资料图片的文本识别方法,其特征在于,包括以下步骤:
基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;
确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,其中,所述确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,包括:确定所述多个分块的类型信息;根据所述类型信息从所述多个分块中获取属于第一类型的多个第一分块;确定所述多个第一分块的位置信息;根据所述多个第一分块的位置信息,从所述多个第一分块中获取满足第一预设条件的多个第二分块;将所述多个第二分块作为所述多个待合并分块,其中,所述满足第一预设条件包括:距离所述医学资料图片上边界的距离值之差小于预设阈值;
识别所述多个待合并分块的文本内容;
根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,其中,所述第一类型为表格类型,所述多个待合并分块的文本内容为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
所述根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,包括:
根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列;
确定每个待合并分块中所包含的属性列中的首列属性,并从所述多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块;
判断所述首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有所述预设首列属性的待合并分块所缺少的属性列;
若是,则对多个待合并分块进行合并;
其中,所述根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列,包括:
提取所述多个待合并分块的文本内容中各个数据的特征信息;
根据预设的决策树模型对所述特征信息进行预测以获取所述多个待合并分块中所包含的属性列;
其中,所述决策树模型通过如下方式建立:
获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
提取第一OCR识别结果中的各个数据的第一特征信息;
获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
2.一种针对医学资料图片的文本识别装置,其特征在于,包括:
区域划分模块,用于基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;
待合并分块获取模块,用于确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,其中,所述待合并分块获取模块包括:
第一确定单元,用于确定所述多个分块的类型信息;
第一获取单元,用于根据所述类型信息从所述多个分块中获取属于第一类型的多个第一分块;
第二确定单元,用于确定所述多个第一分块的位置信息;
第二获取单元,用于根据所述多个第一分块的位置信息,从所述多个第一分块中获取满足第一预设条件的多个第二分块,其中,所述满足第一预设条件包括:距离所述医学资料图片上边界的距离值之差小于预设阈值;
第三获取单元,用于将所述多个第二分块作为所述多个待合并分块;
识别模块,用于识别所述多个待合并分块的文本内容;
合并模块,用于根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,其中,所述第一类型为表格类型,所述多个待合并分块的文本内容为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
所述合并模块包括:
获取单元,用于根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列;
确定单元,用于确定每个待合并分块中所包含的属性列中的首列属性,并从所述多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块;
判断单元,用于判断所述首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有所述预设首列属性的待合并分块所缺少的属性列;
合并单元,用于在所述判断单元判断所述首列属性与预设首列属性不一致的待合并分块中的属性列为所述具有所述预设首列属性的待合并分块所缺少的属性列时,对多个待合并分块进行合并;
其中,所述获取单元具体用于:
提取所述多个待合并分块的文本内容中各个数据的特征信息;
根据预设的决策树模型对所述特征信息进行预测以获取所述多个待合并分块中所包含的属性列;
其中,所述决策树模型通过如下方式建立:
获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
提取第一OCR识别结果中的各个数据的第一特征信息;
获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天方创新(北京)信息技术有限公司,未经天方创新(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710305560.1/1.html,转载请声明来源钻瓜专利网。