[发明专利]一种低分辨率医疗票据图像的文字自动提取和识别系统与方法有效
申请号: | 201610172317.2 | 申请日: | 2016-03-24 |
公开(公告)号: | CN105654072B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 苏统华;涂志莹;周圣杰;曹源江;周靖淳;周韬宇;孙黎 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/40 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分辨率 医疗 票据 图像 文字 自动 提取 识别 系统 方法 | ||
本发明公开了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法,所述系统包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块,所述方法包括据图像的预处理、字段区域识别、字符串分割和字符识别与验证四大步骤。本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析,能够充分利用这些信息。对于图像质量较低,噪声和图像分辨率影响非常大的图像,利用每个字段区域的语义,有助于将字符串切分成单个字符,从而转化为对单字符的识别。比如,将由纯数字组成的发票号,可以使用专门用于处理只有数字的图像的方法;识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。
技术领域
本发明涉及一种自动提取和识别医疗票据信息的系统与方法。
背景技术
医院和社区门诊中存在大量的纸质医疗票据,这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来,医院和社区门诊的医疗票据管理工作的手段落后而造成的一系列麻烦和问题,一直困扰着医院的管理人员。在医疗票据信息的处理工作方面,绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理+纸质的库房保存+人工的查询更新”的阶段,这成为了阻碍医疗产业信息化发展的一大根源。因此,为了解决这一薄弱环节,使用一种“集中、统一、高效、规范”的医疗票据信息处理方法,已经成为了医院亟待解决的问题。
相比于传统的手工录入票据的方法,光学字符识别(OCR)方法具有成本低、速度快等特点。光学字符识别技术应用广泛,其中一个重要的应用是识别激光打印票据图像上的文字。结合数字图像处理技术和机器学习技术,光学字符识别装置的正确率可以大幅提高。
但针式打印票据图像的文字自动提取和识别是比较挑战的任务。针式打印的票据分辨率较低并常常伴有印章、底纹等干扰因素,需要有效的图像处理技术在不损害文字信息的情况下去除干扰,需要根据票据的启发性信息辅助文字区域的定位和切分,更需要光学字符识别方法具有很好的抗干扰能力和鲁棒性(robustness)。
现有票据图像字符识别系统的主要处理流程如图1所示,主要分为票据图像预处理、字段切分、单字符切分、字符识别这四个步骤,其中:
图像预处理步骤的主要目的是对原图像进行去黑边、去噪点、纠偏以及将原图像转化为灰度图或者二值图。
字段切分步骤是提取图像上的字符区域,切分出票据的文字行并去除噪音。这里的字段定义为一个图像区域,区域内只包含一行字符。
单字符切分步骤是将上一个步骤得到的字段图像进一步细分,得到一系列单个字符的图像。
字符识别步骤是利用OCR对所提取的字符区域进行字符识别以输出文本。
与本发明最接近的同类技术流程如图4所示,主要包括以下五个步骤:
第一步、影像输入:主要利用光学仪器对票据进行扫描,生成相应的影像数据。光学仪器包括扫描仪、传真机、数码相机等。影像生成时的光照条件、影像分辨率等因素会影像到后续的识别效果和正确率。
第二步、图像预处理:主要包括色彩校正、倾斜校正、噪声过滤以及统一将影像转换为二值图或者灰度图。
第三步、字符区域分割:需要将字符区域从上一步骤得到的灰度图中分离出来。
第四步、单字符分割:主要是将上一步骤的字符区域按字符进行分割,然后对单个字符提取其字符特征,为后续匹配识别做准备。
第五步、匹配识别:根据单个字符区域的统计特征或者结构特征,对上一步骤得到的单个字符进行匹配和识别,最后输出文本。
当前的技术在如下四个方面存在缺陷:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610172317.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序