[发明专利]数据标准化处理方法、装置、计算机设备和存储介质在审
申请号: | 201810925040.5 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109189769A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 陈源;冯骞;郑毅 | 申请(专利权)人: | 平安医疗健康管理股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06Q40/08 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 200001 上海市黄浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机设备 数据标准化 初始数据 存储介质 关键字段 映射关系 标准表 字段 标准化 数据更新 数据资源 字段生成 转换 申请 | ||
本申请涉及一种基于数据资源的数据标准化处理方法、装置、计算机设备和存储介质。所述方法包括:获取初始表,初始表中包括了初始数据;从初始表中提取所述初始数据的关键字段;获取初始表与标准表之间的映射关系;标准表中包括了标准字段;根据映射关系,将关键字段转换为标准字段;利用转换后的多个标准字段生成与初始表对应的标准化表。采用本方法能够实现多个地区内的数据之间的标准化,并为不同地区的数据更新以及整理等提供了方便。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据标准化处理方法、装置、计算机设备和存储介质。
背景技术
现有医疗数据和保险数据中,各个城市的表结构、字段、同一字段的取值情况并不一致。例如,有些参保保险类型是以静态形式提供,通过从数据库中直接获取已有的参保保险类型,有些城市参保保险类型是以动态形式提供的,通过从数据库中实时采集不断更新的参保保险类型,参保人员的保险类型有多个不同的对应参保区间,因此,为了提高对多个地区的医疗数据和保险数据的获取和同步的效率,,需要提供可实现多个地区不同医疗数据和保险数据之间的统一方法。
在传统的数据标准化中,通常是利用基于医术术语字典的双向最大匹配分词算法,对医疗文本数据进行分词,得到结构化数据,简单实现医疗数据结构标准化。但由于不同地区的医疗数据之间的存在差异数据,不仅仅限于数据结构差异,还包括不同数据的字段差异和取值差异,而且传统的数据标准化方法中,也未涉及与保险理赔数据相关的统一方法,因此并不适用于多个地区中医疗数据和保险数据之间实现标准化。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现多个地区中医疗数据和保险数据标准化的数据标准化处理方法、装置、计算机设备和存储介质。
一种数据标准化处理方法,所述方法包括:
获取初始表,所述初始表中包括了初始数据;
从所述初始表中提取所述初始数据的关键字段;
获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;
根据所述映射关系,将所述关键字段转换为标准字段;
利用转换后的多个标准字段生成与所述初始表对应的标准化表。
在其中一个实施例中,在所述获取初始表之前,还包括:
建立与第三方数据库的连接;
从所述第三方数据库获取所述初始表,将所述初始表标记为原始表;
利用所述原始表对所述初始表进行初始校验;
当通过初始校验时,对所述初始表中的多个关键字段进行完整性校验。
在其中一个实施例中,所述关键字段包括用户标识;所述方法还包括:
获取所述标准化表对应的类型,所述类型包括医疗类型和理赔类型;
根据用户标识获取对应的医疗类型的标准化表以及理赔类型的标准化表;
将所述医疗类型的标准化表以及理赔类型的标准化表进行交叉验证,识别医疗类型的标准化表以及理赔类型的标准化表之间的差异数据。
在其中一个实施例中,在所述获取所述初始表与标准表之间的映射关系之前,所述方法还包括:
获取所述初始表中的主键和外键,并获取所述主键和所述外键之间的对应关系;
获取所述标准表中的主键和外键,并获取所述主键和所述外键之间的对应关系;
根据所述初始表中的主键和所述标准表的主键,建立所述初始表和所述标准表间的映射关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安医疗健康管理股份有限公司,未经平安医疗健康管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810925040.5/2.html,转载请声明来源钻瓜专利网。