[发明专利]个人身份信息匹配方法、装置、存储介质及计算机设备在审

申请号：	201810178415.6	申请日：	2018-03-05
公开（公告）号：	CN108491460A	公开（公告）日：	2018-09-04
发明（设计）人：	柯杨;刘震;何忠虎;刘萌飞;郭传海;施超;王惠;刘芳芳;潘雅琪	申请（专利权）人：	北京市肿瘤防治研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	贾磊;许曼
地址：	100142***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	匹配个人身份信息信息元素计算机设备存储介质匹配结果目标人群软件技术源数据库高效率查找申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及软件技术领域，特别涉及个人身份信息匹配方法、装置、存储介质及计算机设备，其中方法将匹配的个人身份信息进行拆分形成不同信息元素，将目标人群的信息元素与源数据库中的信息元素相匹配，并计算匹配分值，根据匹配分值得到匹配结果，从而可以更高效率的进行个人身份信息匹配、查找，以及根据匹配分值对匹配结果进行区分。

技术领域

本申请涉及软件技术领域，特别涉及个人身份信息匹配方法、装置、存储介质及计算机设备。

背景技术

在医学或流行病学研究中，经常会使用一些行政数据库系统作为获得发病、死亡等结局事件信息的来源，比如常用的新农合系统(NCMS)、肿瘤发病登记系统和死亡登记系统。在应用这些数据库时，面临的首要问题就是不同数据库之间的对接，需要在这些大型数据库寻找目标人群的信息，通常会涉及目标人群与这些数据库的匹配，即将同一个体的信息链接起来。用于匹配个体信息的变量通常包括姓名、性别、出生日期、身份证号、地址等。但在现实应用中，匹配双方的信息(目标人群的个体信息、数据库中的个体信息)会存在一定比例的错误，这些错误会导致双方的信息不能完全匹配。这种错误可能来自于多方面，比如人工录入信息时不可避免一定程度的录入错误；身份证换代过程会产生ID号不一致；姓名中存在同音字混用，在农村地区尤为明显；村庄一级的地名存在不同名称等。这一问题给数据库匹配造成极大困难，变量中的错误会造成同一个体的信息不能匹配的情况，导致匹配结果偏离真实情况。

在医学研究中，准确的获得研究目标人群的发病及死亡等结局事件是保证研究结果可靠性的关键。而数据库的精确匹配是保证所获数据准确性的首要条件。在我国农村地区，由于人群文化素质相对受限，数据库中变量错误率相对更高。而一些疾病在农村地区更加严重，这些地区会成为研究者重点关注的地区，在这些地区进行研究，如果存在数据库匹配问题将会使研究结果不准确，如由此得到的发病率或死亡率估计产生偏倚。因此，在医学研究领域，急需一种具备容错能力的匹配算法，且应具备一定自动化能力来处理大型数据库间的对接匹配。

发明内容

为了解决现有技术中上述问题，本申请实施例提供了一种个人身份信息匹配方法、装置、存储介质及计算机设备，可以在匹配个人身份信息时即便出现不完全一致的情况下，也可以准确的匹配得到相应的记录。

本申请实施例提供了一种个人身份信息匹配方法，包括，

将个人身份信息拆分为多种信息元素；

对所述多种信息元素分别赋以不同的值；

将目标人群中个人身份信息的多种信息元素与源数据库中个人身份信息的多种信息元素进行初步匹配；

根据初步匹配结果以及所述多种信息元素的值，计算匹配分值；

根据所述匹配分值得到最终匹配结果。

本申请实施例还提供了一种个人身份信息匹配装置，包括，

拆分单元，用于将个人身份信息拆分为多种信息元素；

赋值单元，用于对所述多种信息元素分别赋以不同的值；

初步匹配单元，用于将目标人群中个人身份信息的多种信息元素与源数据库中个人身份信息的多种信息元素进行初步匹配；