[发明专利]医学文本处理方法及相关设备有效
申请号: | 201911215277.5 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111210887B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 刘岩 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G16H15/00 | 分类号: | G16H15/00;G06F16/35;G06F16/36 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 文本 处理 方法 相关 设备 | ||
本公开的实施方式提供了一种医学文本处理方法及装置、计算机可读存储介质和电子设备。所述方法包括:获取医学文本;通过分类器对所述医学文本进行分类;根据分词词典对已分类的所述医学文本进行归一化;以及根据归一化后的所述医学文本获得所述医学文本的结构化数据,其中,所述分类器包括第一分类器和第二分类器,通过所述第一分类器对所述医学文本进行第一次分类,将所述医学文本分为长文分类中的一种长文中,通过所述第二分类器分别对分类至所述长文分类中的长文进行第二分类,将所述医学文本进一步分类至描述和结论分类中的一类中。本公开能够实现医学文本处理的处理,提高医学文本处理的效率和准确性。
技术领域
本公开涉及计算机和通信技术领域,具体而言,涉及一种医学文本的处理方法及装置、计算机可读存储介质和电子设备。
背景技术
在保险业务中,中高端健康险要求客户提交健康体检报告。保险公司基于客户体检报告,由核保人员进行审核,做出是否承保的决定。目前这个过程都是人工处理的,如果要实现核保流程的自动化,首先就需要攻克体检报告中医学长文的自动结构化难题。体检报告医学长文结构化是目前技术难度最大的领域之一。体检报告中医学长文主要以B超检查、胸片检查为主。由于全国有近2万6千家体检机构,体检报告种类复杂多样,对应的B超、胸片检查的版式多样,语言描述形式复杂,如何设计和实现一种具有版式、内容自适应的医学长文结构化解析方法是本发明要解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种医学文本处理方法及装置、计算机可读存储介质和电子设备,能够提高医学文本处理的效率和准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种医学文本的处理方法,包括:
获取医学文本;
通过分类器对所述医学文本进行分类;
根据分词词典对已分类的所述医学文本进行归一化;以及
根据归一化后的所述医学文本获得所述医学文本的结构化数据
其中,所述分类器包括第一分类器和第二分类器,通过所述第一分类器对所述医学文本进行第一次分类,将所述医学文本分为长文分类中的一种长文中,通过所述第二分类器分别对分类至所述长文分类中的长文进行第二分类,将所述医学文本进一步分类至描述和结论分类中的一类中。
在一个实施例中,还包括:
构建所述分词词典;以及
基于所述分词词典构建所述分类器。
在一个实施例中,构建所述分词词典包括:
通过对体检报告中包括的医学术语的统计分析总结获得所述分词词典。
在一个实施例中,基于所述分词词典构建所述分类器包括:
通过对使用所述分词词典分词的标准B超长文、标准胸片长文和表格长文中的词汇分析总结获得第一分类器;以及
通过对使用所述分词词典分词的B超描述、B超结论、胸片描述和胸片结论中的词汇分析总结获得第二分类器。
在一个实施例中,通过分类器对所述医学文本进行分类包括:
通过所述第一分类器对所述医学文本中的每行文本进行第一次分类,将每行文本划分至所述标准B超长文、所述标准胸片长文、所述表格长文和其它长文中的一种长文;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911215277.5/2.html,转载请声明来源钻瓜专利网。