[发明专利]一种基于融合字形信息的服药单识别结果纠错方法有效
申请号: | 202110015403.3 | 申请日: | 2021-01-04 |
公开(公告)号: | CN112613522B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 唐万梅;梁燕;李锦;周东亮;陈峻嵩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V30/26 | 分类号: | G06V30/26;G06V30/19 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 融合 字形 信息 服药 识别 结果 纠错 方法 | ||
本发明涉及一种基于融合字形信息的服药单识别结果纠错方法,属于文字识别领域,包括构建一个标准药品词库,将词库中的每个药品信息作为一个节点存储在BK树内存结构中,设置搜索距离阈值n,通过阈值搜索规则减少数据搜索规模,得到结果候选集;将文字识别后待纠错字符串与结果候选集中的字符串进行相似度匹配,在原有的相似度匹配方案基础上改进传统的编辑距离公式,保持插入和删除操作代价不变,降低替换字符代价;在进行替换字符操作时,考虑字符的五笔编码、四角码和笔画三个字形相关信息,增大字符串近似匹配精度;将相似度最高的字符串作为纠错结果进行替换。本发明通过对服药单识别结果纠错,提高服药单识别准确率。
技术领域
本发明属于文字识别技术领域,涉及一种基于融合字形信息的服药单识别结果纠错方法。
背景技术
随着人民生活水平的不断提高,慢性病患者人数在逐年递增,患者需要长期甚至终身用药以控制、缓解病情。对患者服药信息的长期追踪,能够帮助医护人员了解患者的实际用药情况,便于对其进行健康评估、疾病预测。医疗服药单作为患者服药信息的重要依据,主要包含医嘱时间、药品名称、剂量和频次信息。然而纸质服药单不易保存,人工采集数据耗费人力,且存在数据错误风险,OCR技术为纸质文档的电子化提供了便利。
随着OCR技术的发展,印刷体识别技术已经拥有较高的准确度。但是服药单上的药品名多数是由不同的中文字符构成,其中包含很多医学上才会频繁使用的生僻字,如:“胍”、“哌”、“嗪”、“萘”、“铋”等,或者形近字,如“橼”和“橡”、“枸”和“佝”等,再加上服药单图像本身的清晰度、噪声、折叠、倾斜、光照等多种因素的影响,极易导致OCR识别后的结果存在错误。为有效降低识别错误带来的影响,对服药单识别结果后处理变得尤为重要。
在文字识别后处理中,计算两个字符串的相似度是一个重要研究方向,通过依次计算待纠错字符串和目标集合中字符串的相似度,选择相似度最高的目标字符串作为纠错结果。近年来,很多学者提出了基于语义、音形码、编辑距离、最长公共子序列等方法来计算两个字符串的相似度,从而提高文字的识别率。但是药品名称主要是由一些医学专用词汇拼接而成,并不具备语义环境,基于语义的方法无法有效地与实际问题结合。编辑距离算法,通过两个字符串由一个转成另一个所需要的最少编辑操作次数来衡量它们之间的相似度,其主要应用在英文字符串的相似度计算中,考虑的编辑操作信息过于单一,导致传统的编辑距离不符合实际应用场景要求。
发明内容
有鉴于此,本发明的目的在于提供一种基于融合字形信息的服药单识别结果纠错方法,解决中文药品名称识别结果错误问题。
为达到上述目的,本发明提供如下技术方案:
一种基于融合字形信息的服药单识别结果纠错方法,包括以下步骤:
S1:构建药品词库,包括门诊病历和医院服药单中的常用药品,以及能从网上获取到的部分开源药品数据,进行清洗去重,得到最终的药品词库;
S2:将所述药品词库中每个字符串信息作为一个节点存储在BK树内存结构中;
S3:设置搜索距离阈值n,计算待纠错字符串与BK树中节点的编辑距离,将满足与待纠错字符串编辑距离不超过n的节点添加到结果候选集中;
S4:分别计算待纠错字符串与结果候选集中的字符串间融合了五笔编码、四角码和笔画后的字形编辑距离dc。
S5:计算融合字形信息的字符串相似度Simc,公式如下:
S6:将相似度最高的字符串作为纠错结果进行替换。
进一步,所述步骤S2包括以下步骤:
S21:随机选择词库中的一个字符串作为BK树的根节点;
S22:每插入一个新字符串,计算该字符串与根节点的距离d;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110015403.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置