[发明专利]一种信息处理的方法在审
申请号: | 201711463023.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108197216A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 邱恒;龙汉;王海生 | 申请(专利权)人: | 深圳市巨鼎医疗设备有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G16H15/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子报告 医学 信息处理 表头 中间格式数据 信息提取技术 表格信息 预设格式 不规则 低成本 定义表 分割线 高效率 识别率 文档 排序 线条 样式 自动化 涵盖 输出 保存 转换 发现 | ||
1.一种信息处理的方法,其特征在于,所述提取方法包括以下步骤:
获取医学电子报告中的中间格式数据;
对所述中间格式数据的坐标进行排序;
发现医学电子报告中的分割线;
获取医学电子报告中的表头,并将表头保存为关键字,根据预设的数据字典和关键字对表头坐标进行定位;
定义表头;
定义表的行和列;
将提取出来的表格信息转换成预设格式的文档并输出。
2.如权利要求1所述的一种信息处理的方法,其特征在于,所述对中间格式数据的坐标进行排序的步骤具体为:
依照先页后行再列的顺序对所述中间格式数据以及所述中间格式数据的坐标进行重新排序。
3.如权利要求2所述的一种信息处理的方法,其特征在于,所述先页后行再列的顺序具体包括:所有所述中间格式数据,按页划分,按页码升序排列;单个页面,按元素的Y坐标升序排序,Y坐标的垂直间距使元素划分为多行,行内元素按X坐标升序排序。
4.如权利要求1所述的一种信息处理的方法,其特征在于,所述发现医学电子报告中的分割线步骤具体为:
从所述中间格式数据中过滤出垂直直线和水平直线。
5.如权利要求1所述的一种信息处理的方法,其特征在于,所述数据字典,其内容来源于常见的医学电子报告检验单的样式,其中表头内容作为关键字信息存储至所述数据字典中。
6.如权利要求5所述的一种信息处理的方法,其特征在于,根据所述数据字典中存储的关键字逐行进行匹配,计算每行文本块出现关键字的频率,将表头坐标定位于频率高的行;当匹配度较低时,计算可能存在的分隔线形成的矩形来辅助定位表格起点。
7.如权利要求6所述的一种信息处理的方法,其特征在于,所述定义表头步骤具体为:
利用所述数据字典,拆分或重组上一步骤中发现的表头行,使之匹配为正确的表头列。
8.如权利要求7所述的一种信息处理的方法,其特征在于,所述定义表的行和列步骤具体为:
利用文本块分段算法,与表头距离判断,拆分或合并成与表头列数目符合的单元格。
9.如权利要求8所述的一种信息处理的方法,其特征在于,所述定义表的行和列步骤后,对表格区域进行噪音去除,所述噪音指非表格内容的元素。
10.如权利要求9所述的一种信息处理的方法,其特征在于,对于没有定义网格结构的,当单元格内文本过多被分配到下一行时,将跨行文本合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市巨鼎医疗设备有限公司,未经深圳市巨鼎医疗设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711463023.6/1.html,转载请声明来源钻瓜专利网。