[发明专利]一种信息处理的方法在审

申请号：	201711463023.6	申请日：	2017-12-28
公开（公告）号：	CN108197216A	公开（公告）日：	2018-06-22
发明（设计）人：	邱恒;龙汉;王海生	申请（专利权）人：	深圳市巨鼎医疗设备有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G16H15/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电子报告医学信息处理表头中间格式数据信息提取技术表格信息预设格式不规则低成本定义表分割线高效率识别率文档排序线条样式自动化涵盖输出保存转换发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及医学电子报告信息提取技术领域，尤其涉及一种信息处理的方法，包括以下步骤：获取医学电子报告中的中间格式数据；对中间格式数据的坐标进行排序；发现医学电子报告中的分割线；获取医学电子报告中的表头，并将表头保存为关键字；定义表头；定义表的行和列；将提取出来的表格信息转换成预设格式的文档并输出。本发明的一种信息处理的方法，以关键字为主，线条为辅的方法对医学电子报告中的信息进行提取与整理，实现低成本、高效率的自动化提取，支持多种样式的医学电子报告识别，涵盖了多种指标项的识别和解读，对电子报告中的不规则表格有较高的识别率。

技术领域

本发明涉及医学电子报告信息提取技术领域，尤其涉及一种信息处理的方法。

背景技术

医学电子报告多以PDF，XPS格式文件为主，包含丰富的患者个人和病历数据，XPS文档与PDF文档类似，是一种只读文档格式，其采用结构化数据形式保存数据，在使用计算机读取文档内容时，需要进行相应的解析和提取处理。.net中有读取处理的组件，该组件虽能够获取XPS或PDF中的文本信息，但不公开提供坐标信息的获取能力，有个隐藏接口虽可获取坐标信息但准确度很低。医学电子报告中的检验指标通常以表格的形式呈现，传统提取表格的做法是采用视觉模式来划分表元素。医学电子报告中用来呈现检验指标的表格通常没有明确的分隔线、矩形或者间隔，单纯用视觉模式划分表格元素的方案准确性较低，不完全适用于检验指标提取。

发明内容

针对现有技术中存在的问题，本发明提供一种信息处理的方法。

一种信息处理的方法，包括以下步骤：

获取医学电子报告中的中间格式数据；

对中间格式数据的坐标进行排序；

发现医学电子报告中的分割线；

获取医学电子报告中的表头，并将表头保存为关键字，根据预设的数据字典和关键字对表头坐标进行定位；

定义表头；

定义表的行和列；

将提取出来的表格信息转换成预设格式的文档并输出。

进一步的，对中间格式数据的坐标进行排序的步骤具体为：

依照先页后行再列的顺序对中间格式数据以及中间格式数据的坐标进行重新排序。