[发明专利]一种信息处理的方法在审
申请号: | 201711463023.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108197216A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 邱恒;龙汉;王海生 | 申请(专利权)人: | 深圳市巨鼎医疗设备有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G16H15/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子报告 医学 信息处理 表头 中间格式数据 信息提取技术 表格信息 预设格式 不规则 低成本 定义表 分割线 高效率 识别率 文档 排序 线条 样式 自动化 涵盖 输出 保存 转换 发现 | ||
本发明涉及医学电子报告信息提取技术领域,尤其涉及一种信息处理的方法,包括以下步骤:获取医学电子报告中的中间格式数据;对中间格式数据的坐标进行排序;发现医学电子报告中的分割线;获取医学电子报告中的表头,并将表头保存为关键字;定义表头;定义表的行和列;将提取出来的表格信息转换成预设格式的文档并输出。本发明的一种信息处理的方法,以关键字为主,线条为辅的方法对医学电子报告中的信息进行提取与整理,实现低成本、高效率的自动化提取,支持多种样式的医学电子报告识别,涵盖了多种指标项的识别和解读,对电子报告中的不规则表格有较高的识别率。
技术领域
本发明涉及医学电子报告信息提取技术领域,尤其涉及一种信息处理的方法。
背景技术
医学电子报告多以PDF,XPS格式文件为主,包含丰富的患者个人和病历数据,XPS文档与PDF文档类似,是一种只读文档格式,其采用结构化数据形式保存数据,在使用计算机读取文档内容时,需要进行相应的解析和提取处理。.net中有读取处理的组件,该组件虽能够获取XPS或PDF中的文本信息,但不公开提供坐标信息的获取能力,有个隐藏接口虽可获取坐标信息但准确度很低。医学电子报告中的检验指标通常以表格的形式呈现,传统提取表格的做法是采用视觉模式来划分表元素。医学电子报告中用来呈现检验指标的表格通常没有明确的分隔线、矩形或者间隔,单纯用视觉模式划分表格元素的方案准确性较低,不完全适用于检验指标提取。
发明内容
针对现有技术中存在的问题,本发明提供一种信息处理的方法。
一种信息处理的方法,包括以下步骤:
获取医学电子报告中的中间格式数据;
对中间格式数据的坐标进行排序;
发现医学电子报告中的分割线;
获取医学电子报告中的表头,并将表头保存为关键字,根据预设的数据字典和关键字对表头坐标进行定位;
定义表头;
定义表的行和列;
将提取出来的表格信息转换成预设格式的文档并输出。
进一步的,对中间格式数据的坐标进行排序的步骤具体为:
依照先页后行再列的顺序对中间格式数据以及中间格式数据的坐标进行重新排序。
进一步的,先页后行再列的顺序具体包括:所有中间格式数据,按页划分,按页码升序排列;单个页面,按元素的Y坐标升序排序,Y坐标的垂直间距使元素划分为多行,行内元素按X坐标升序排序。
进一步的,发现医学电子报告中的分割线步骤具体为:
从中间格式数据中过滤出垂直直线和水平直线。
进一步的,数据字典,其内容来源于常见的医学电子报告检验单的样式,其中表头内容作为关键字信息存储至数据字典中。
进一步的,根据数据字典中存储的关键字逐行进行匹配,计算每行文本块出现关键字的频率,将表头坐标定位于频率高的行;当匹配度较低时,计算可能存在的分隔线形成的矩形来辅助定位表格起点。
进一步的,定义表头步骤具体为:
利用数据字典,拆分或重组上一步骤中发现的表头行,使之匹配为正确的表头列。
进一步的,定义表的行和列步骤具体为:
利用文本块分段算法,与表头距离判断,拆分或合并成与表头列数目符合的单元格。
进一步的,定义表的行和列步骤后,对表格区域进行噪音去除,噪音指非表格内容的元素。
进一步的,对于没有定义网格结构的,当单元格内文本过多被分配到下一行时,将跨行文本合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市巨鼎医疗设备有限公司,未经深圳市巨鼎医疗设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711463023.6/2.html,转载请声明来源钻瓜专利网。