[发明专利]一种基于NER的检查报告隐私处理方法在审
申请号: | 202211163813.3 | 申请日: | 2022-09-23 |
公开(公告)号: | CN115525925A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 刘杰;黄佳俊 | 申请(专利权)人: | 上海触脉数字医疗科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/295;G06N3/04;G06N3/08;G06V10/82;G06V30/10 |
代理公司: | 南京金宁专利代理事务所(普通合伙) 32479 | 代理人: | 董武洲 |
地址: | 201100 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ner 检查 报告 隐私 处理 方法 | ||
1.一种基于NER的检查报告隐私处理方法,其特征在于:包括以下步骤:
S1:用户通过用户端口上传检查报告的报告单图片;
S2:设立识别模块,识别模块主要用于对报告单图片上的名称实体进行识别,得到报告单上名称实体信息;
S201:所述识别模块内建立NER模型,并训练NER模型;
S202:在训练NER模型过程中对于序列标注任务的处理方式是将名称实体中的身份认证令牌从离散one-hot独热码表示映射到低维空间中成为稠密的embedding中;
S203:将名称实体的embedding序列输入到RNN中,用神经网络自动提取特征;
S204:使用Softmax回归来预测每个身份认证令牌的标签,完成NER模型的构造以及训练;
S3:利用中文OCR技术,识别用户上传检查报告的报告单图片上的文字,并使用训练好的hanlp分词模型,对识别出来的文字进行分词,实现完成姓名、登记号、住院号以及病号识别以及分词;
S4:使用训练好的NER模型,对分词结果进行实体提取,返回实体所在图片上面的位置信息,以Box形状描绘出分词实体四顶点坐标;
S5:根据报告单图片上的Box坐标位置,利用图像处理技术,对Box范围的内容进行模糊处理,从而对隐私实体内容进行屏蔽处理,实现隐私脱敏化;
S6:输出隐私脱敏后的报告单图片。
2.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:所述Embedding是用低维向量对物体进行编码,在传统机器学习模型构建过程中,使用one-hot独热码encoding对离散特征,特别是id类特征进行编码。
3.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:步骤S204中所述Softmax回归是将输入特征与权重做线性叠加,其输出层作为全连接层,所述Softmax回归的输出值个数等于标签中的类别数;将输出值oi当做预测类别i的置信度,为Softmax回归运算得到离散的预测输出,并将值最大的输出所对应的类别作为预测输出。
4.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:步骤S2中NER为命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词。
5.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:步骤S3中所述OCR技术为光学字符识别,是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,实现供文字处理软件进一步编辑加工。
6.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:步骤S3中hanlp分词模型是由模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,提供词法分析、句法分析、文本分析和情感分析功能。
7.根据权利要求1所述的一种基于NER的检查报告隐私处理方法,其特征在于:会诊医师通过医师端口获取步骤S6中输出的隐私脱敏后的报告单图片完成辅助诊疗,并将诊疗结果与脱敏后的报告单图片进行打包,同步返回至用户端口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海触脉数字医疗科技有限公司,未经上海触脉数字医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211163813.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种晶圆贴膜设备及晶圆贴膜方法
- 下一篇:一种基于生态种植用大棚支撑装置