[发明专利]一种医疗数据查重和关联的方法及系统有效
| 申请号: | 201710153199.5 | 申请日: | 2017-03-15 |
| 公开(公告)号: | CN106934038B | 公开(公告)日: | 2018-01-05 |
| 发明(设计)人: | 刘劲松;王友柱;饶江;李广东;李楠;王东;陈桂太 | 申请(专利权)人: | 江苏华生基因数据科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
| 代理公司: | 北京精金石专利代理事务所(普通合伙)11470 | 代理人: | 刘晔 |
| 地址: | 224007 江苏省盐城市经*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 医疗 数据 关联 方法 系统 | ||
技术领域
本发明一般地涉及数据处理技术,并且更特别地,涉及医疗数据查重和关联的处理方法及系统。
背景技术
在医疗数据采集过程的实践中,存在同一数据被多次收集并录入数据库的可能性,亦存在数据被专业或非专业人士稍加改动后被当作不同数据收集并录入数据库的可能性。为了保证医疗数据库中数据的真实有效性,需要设定方案,在数据提交后,正式审核通过入库之前,对其进行查重处理,将重复数据阻挡在数据库大门之外。由于医疗数据中存在大量的非结构化数据,例如病历中的症状描述、疾病的治疗方案等,目前医疗数据的深度查重基本有赖于有相关医学经验的人工操作,这不仅效率较低,且耗费大量人力物力,成本高昂。
另外,医学研究不同于其他自然科学学科,相关人体实验管控严格,无法实时对其理论研究进行验证。医学研究因此非常依赖于历史医疗数据诸如患者病历等的收集和分析。因此需要一种有效的医疗数据处理方法使得自动挖掘出医疗数据库中相关性病例成为可能,供进一步的医疗研究与分析。
中国专利CN101609466B提供了一种“海量数据查重的方法和系统”,:提取海量数据中的数据关键字,所述数据关键字用于将所在数据与其他数据区分开;根据所述数据关键字的前N+M个字母分割所述数据关键字,将前N+M个字母相同的数据关键字放入同一个文件中,得到关键字数据文件;其中,所述数据关键字的前N个字母相同,前N+M个字母不完全相同,N、M为非负整数);分别对各关键字数据文件中的数据进行查重,得到查重结果。该发明较适用于结构化的数据,对于存在大量非结构化数据的医疗数据无法进行有效的查重。另外,该发明没有涉及数据之间的相似性及关联问题。
中国专利CN101751423A提供了“一种稿件查重的方法及系统”,包括:生产数据库中的稿件信息,因对版面上的稿件进行操作而被相应的修改后,时间触发器获取修改后的稿件信息,所述稿件信息包括稿件内容;查重服务器对获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重复稿件内容比较,确定崇高信息,由于查重服务器对事件触发器获取的稿件信息中未进行重复稿件内容比较的稿件信息进行重组稿件内容比较,使得最终确定重稿信息。可以知道,该专利实际达到的技术效果是实现稿件,一种非结构化信息,在提交前自动查重,减少发表中重稿出现的次数。虽然该专利在其实施例中提及了可以运用中文分词库技术对稿件内容进行比对,产生稿件数据之间的相似度,从而进行查重处理,但是该专利并未具体公布如何计算稿件数据之间的相似度问题,也并未涉及如何利用稿件数据之间的相似度对稿件数据之间进行关联。
发明内容
针对上述问题,本发明通过一种医疗数据查重和关联的方法及系统,解决了现有技术中无法对大量存在非结构化数据的医疗数据有效查重以及缺乏建立医疗数据之间的关联的问题。
为了实现上述目的,本发明采用如下技术方案。
一种医疗数据查重和关联的方法,其特征在于,包括以下步骤:
(1)提取待处理的医疗数据中的核心数据项,所述核心数据项用于将所在数据与其他数据区分开;
(2)将核心数据项分类,先将核心数据项先分为结构化数据项及非结构化数据项,而后在结构化数据项中选取一组数据项作为排除数组,其他结构化数据项则作为模糊数组;
(3)分别对排除数组及模糊数组中的各个数据项初步筛查,
(3a)当排除数组中任意一个数据项与医疗数据库中已有同类数据项不同时则判断该医疗数据不重复或无关联并输入医疗数据库中,
或(3b)当模糊数组中不同数据项个数与模糊数组总项数的比例大于设定的阈值M1时则判断该医疗数据不重复或无关联并输入医疗数据库中,
其他情况则进入下一步骤;
(4)对核心数据项中的各项数据项进行深度筛查,将各个数据项的权重ai进行赋值,对各个数据项的相似度fi进行判断计算,
并根据下列公式计算该医疗数据与医疗数据库中已有医疗数据的总相似度F:
其中,0≤fi≤1,0<F≤1,
当F=1时,则判断该医疗数据为重复数据并删除;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华生基因数据科技股份有限公司,未经江苏华生基因数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710153199.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高并发实现数据库快速加载数据的方法
- 下一篇:问卷生成方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





