[发明专利]一种低分辨率医疗票据图像的文字自动提取和识别系统与方法有效
申请号: | 201610172317.2 | 申请日: | 2016-03-24 |
公开(公告)号: | CN105654072B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 苏统华;涂志莹;周圣杰;曹源江;周靖淳;周韬宇;孙黎 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/40 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法,所述系统包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块,所述方法包括据图像的预处理、字段区域识别、字符串分割和字符识别与验证四大步骤。本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析,能够充分利用这些信息。对于图像质量较低,噪声和图像分辨率影响非常大的图像,利用每个字段区域的语义,有助于将字符串切分成单个字符,从而转化为对单字符的识别。比如,将由纯数字组成的发票号,可以使用专门用于处理只有数字的图像的方法;识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。 | ||
搜索关键词: | 一种 分辨率 医疗 票据 图像 文字 自动 提取 识别 系统 方法 | ||
【主权项】:
1.一种低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述方法步骤如下:一、票据图像的预处理读取票据影像,采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素;二、字段区域分割通过使用预先设定好的模板来对特定格式的票据图像内容进行定位,找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出,所述计算打印文字与模板对比的偏移量的方法如下:(1)读入经过预处理后的bmp图像,并且进行二值化和进一步的处理;(2)通过横纵投影得到图像的投影数组proHori[]、proVerti[],遍历数组,通过峰值确定图像中表格框左上角和右下角顶点坐标值,从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h,w);(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量,比较得出最大值,对应偏移量为最佳的打印字相对于表格的偏移量(offsetX,offsetY);(4)计算出每块字段区域的位置(rLeft,rRight,rTop,rBottom):rLeft=(x0+offset)*pLeft;rRight=(x0+offsetX)*pRight;rTop=(y0+offsetY)*pTop;rBottom=(y0+offsetY)*pBottom;pLeft和pTop为某个字段区域的左上角顶点的两个坐标值,pRight和pBottom为右下角顶点的两个坐标值;(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域,输出每个字段区域的bmp图像文件;三、字符串分割使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分;四、字符识别与验证(1)将单个字符的图像输入到SDK模块,然后获取前二十个候选字符串a[],并且确定该单个字符所在字段对应的字符集T[];(2)按顺序从候选字符串中取出一个字符,然后进行判断,如果该候选字符在字符集中,那么认为识别成功,图像上的字符就是该候选字符,否则取当前候选字符的下一个字符,重复以上判断过程,如果候选字符串中的所有字符都不在字符集T[]中,则认为识别失败,用字符#代替。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610172317.2/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序