[发明专利]一种低分辨率医疗票据图像的文字自动提取和识别系统与方法有效
申请号: | 201610172317.2 | 申请日: | 2016-03-24 |
公开(公告)号: | CN105654072B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 苏统华;涂志莹;周圣杰;曹源江;周靖淳;周韬宇;孙黎 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/40 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分辨率 医疗 票据 图像 文字 自动 提取 识别 系统 方法 | ||
1.一种低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述方法步骤如下:
一、票据图像的预处理
读取票据影像,采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素;
二、字段区域分割
通过使用预先设定好的模板来对特定格式的票据图像内容进行定位,找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出,所述计算打印文字与模板对比的偏移量的方法如下:
(1)读入经过预处理后的bmp图像,并且进行二值化和进一步的处理;
(2)通过横纵投影得到图像的投影数组proHori[]、proVerti[],遍历数组,通过峰值确定图像中表格框左上角和右下角顶点坐标值,从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h,w);
(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量,比较得出最大值,对应偏移量为最佳的打印字相对于表格的偏移量(offsetX,offsetY);
(4)计算出每块字段区域的位置(rLeft,rRight,rTop,rBottom):
rLeft=(x0+offset)*pLeft;
rRight=(x0+offsetX)*pRight;
rTop=(y0+offsetY)*pTop;
rBottom=(y0+offsetY)*pBottom;
pLeft和pTop为某个字段区域的左上角顶点的两个坐标值,pRight和pBottom为右下角顶点的两个坐标值;
(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域,输出每个字段区域的bmp图像文件;
三、字符串分割
使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分;
四、字符识别与验证
(1)将单个字符的图像输入到SDK模块,然后获取前二十个候选字符串a[],并且确定该单个字符所在字段对应的字符集T[];
(2)按顺序从候选字符串中取出一个字符,然后进行判断,如果该候选字符在字符集中,那么认为识别成功,图像上的字符就是该候选字符,否则取当前候选字符的下一个字符,重复以上判断过程,如果候选字符串中的所有字符都不在字符集T[]中,则认为识别失败,用字符#代替。
2.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述步骤一的具体步骤如下:
1)采用三个数组red[]、green[]、blue[]存放一张图片的所有像素的三原色,分别求这三个数组的中位数red、green、blue,将这三个中位数作为组成一张图片的背景颜色;
2)确定图片中相应的位置来填充背景颜色:
①将原图中红色印章区域的三原色数据填充为图片背景颜色数据;
②表格线、条形码在原图中的位置是不变的,因此对于图像的四周的噪点,采用相对固定区域填充图片的背景颜色数据,图中左端与右端的黑色圆孔噪点的分布位置是相对固定的,以原图的长和宽为基础,按照左端与右端黑色圆孔噪点分布范围与长和宽的比例,在图片的左端与右端填充宽度相同、长度覆盖左右端的圆孔噪点的长方形背景颜色数据,以达到完全去掉黑色圆孔噪点的效果;同样对于图像上下两端存在的黑色噪点,采用相同的方法,填充长度相同、宽度以上端不覆盖发票名称,下端不覆盖表格线为准则的长方形背景颜色数据,以完全覆盖掉黑色噪点;
③对于票据图片背景中的底纹,先将原图转化为灰度图,然后求得该灰度图中的前后景分离阈值thresh,当灰度图的某个像素的灰度值大于255*thresh,则判断该像素点为后景,在原图相同位置上填充为背景颜色。
3.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述模板是指记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界需要识别内容在票据图像中的相对位置数据的文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610172317.2/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序