[发明专利]医学文本处理方法及相关设备有效
申请号: | 201911215277.5 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111210887B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 刘岩 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G16H15/00 | 分类号: | G16H15/00;G06F16/35;G06F16/36 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 文本 处理 方法 相关 设备 | ||
1.一种医学文本的处理方法,其特征在于,包括:
获取医学文本,所述医学文本包括体检报告的内容;
通过分类器对所述医学文本进行分类;
根据分词词典对已分类的所述医学文本进行归一化;以及
根据归一化后的所述医学文本获得所述医学文本的结构化数据;
其中,所述分类器包括第一分类器和第二分类器,通过所述第一分类器对所述医学文本进行第一次分类,将所述医学文本分为长文分类中的一种长文中,通过所述第二分类器分别对分类至所述长文分类中的长文进行第二分类,将所述医学文本进一步分类至描述和结论分类中的一类中。
2.如权利要求1所述的方法,其特征在于,还包括:
构建所述分词词典;以及
基于所述分词词典构建所述分类器。
3.如权利要求2所述的方法,其特征在于,构建所述分词词典包括:
通过对体检报告中包括的医学术语的统计分析总结获得所述分词词典。
4.如权利要求2所述的方法,其特征在于,基于所述分词词典构建所述分类器包括:
通过对使用所述分词词典分词的标准B超长文、标准胸片长文和表格长文中的词汇分析总结获得第一分类器;以及
通过对使用所述分词词典分词的B超描述、B超结论、胸片描述和胸片结论中的词汇分析总结获得第二分类器。
5.如权利要求4所述的方法,其特征在于,通过分类器对所述医学文本进行分类包括:
通过所述第一分类器对所述医学文本中的每行文本进行第一次分类,将每行文本划分至所述标准B超长文、所述标准胸片长文、所述表格长文和其它长文中的一种长文;以及
通过所述第二分类器分别对分类至所述标准B超长文、所述标准胸片长文和所述表格长文中的长文进行第二分类,所述标准B超长文、所述标准胸片长文和所述表格长文中包括的长文分别进一步分类至所述B超描述、所述B超结论、所述胸片描述、所述胸片结论和其它部分中的一类中。
6.如权利要求3所述的方法,其特征在于,构建所述分词词典包括:
通过人工医学知识分析、滤除错误和不合理的分词,对所述分词词典进行完善。
7.如权利要求4所述的方法,其特征在于,通过人工抽取和标注关键词汇,以及通过人工核检、剔除不合理分词不断完善所述第一分类器和所述第二分类器。
8.一种医学文本的处理装置,其特征在于,包括:
构建模块,配置为构建分词词典以及基于所述分词词典构建分类器;
获取模块,配置为获取医学文本,所述医学文本包括体检报告的内容;
分类模块,配置为根据所述分类器对所述医学文本进行分类;以及
归一模块,配置为根据所述分词词典对分类完成的医学文本进行归一处理;
其中,所述分类器包括第一分类器和第二分类器,通过所述第一分类器对所述医学文本进行第一次分类,将所述医学文本分为长文分类中的一种长文中,通过所述第二分类器分别对分类至所述长文分类中的长文进行第二分类,将所述医学文本进一步分类至描述和结论分类中的一类中。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的医学文本的处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的医学文本的处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911215277.5/1.html,转载请声明来源钻瓜专利网。