[发明专利]中文电子病历的关系抽取方法在审
申请号: | 201911388053.4 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111223539A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 方钰;张贝贝;陆明名;黄欣;翟鹏珺 | 申请(专利权)人: | 同济大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/211;G06F40/289 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 电子 病历 关系 抽取 方法 | ||
一种基于中文电子病历的关系抽取方法,其特征在于,使用NLPIR分词器对中文电子病历文本进行分词,提取词和词性特征,即基本特征;对中文电子病历文本进行分句,抽取实体对,保留其起始和终止位置信息、实体类别以及修饰信息;提取电子病历的章节名字为章节信息特征(病历特征),为扩展特征;构建关系指示词词典,提取每对实体对的核心词特征,为扩展特征;利用LTP工具对分句后的句子进行依存分析,得到句子各成分之间依存关系;将二元实体的句法依存关系、实体对的依存关系以及二元实体与核心谓词的距离作为依存句法特征;将上述基本特征、扩展特征和依存特征组成的特征向量输入已训练好的支持向量机分类器,抽取中文电子病历的实体关系。
技术领域
本发明涉及机器学习应用于医疗领域。
背景技术
目前英文电子病历的关系抽取主要是基于机器学习,其特征选择和辅助实现主要依靠于英文医疗词典和数据集以及句法分析等。而中文电子病历的实体关系抽取还比较匮乏,一方面主要是基于两个具体实体之间的关系;另一方面没有很好得考虑到中文电子病历文本以及句子的特有特征。
电子病历的关系抽取研究同样由早期的基于规则和词典的方法转化为目前以基于机器学习方法为主流的分类方法,这里的实体关系指的是在一个电子病历文本的句子中出现的实体对之间的关系。针对英文电子病历的关系抽取,Uzuner等人利用SVM模型对疾病、症状、检查和治疗之间的关系进行了识别,他们将语义词汇特征、实体对在句子中出现的次序以及语法特征加入分类器,最后得到了0.89的F值。针对I2B2 2010评测数据,Rink等人利用GENIA15对病历文本进行了预处理,并在词汇特征和上下文特征的基础上选择了上下文相似度作为新特征,其中特征抽取利用到了Wikipedia、WordNet和General inquirer等,最后利用SVM模型达到了0.74的F值。Demner Fushman等人针对电子病历某些实体的上下文特征不丰富这个问题,使用UMLS中概念间关系作为替补特征,最后取得了0.67的F值。目前中文电子病历上的关系抽取研究主要围绕开放域展开,针对中文电子病历的关系抽取方法还在初步研究阶段。车万翔等人从利用Winnow和SVM算法对2004年的ACE测评中的数据进行了实体关系抽取实验,强调了特征选择的重要性。Fang等人进行了中医药的中药与疗效之间的关系抽取实验,用的是基于规则的方法。Zhou等人使用了基于半监督的bootstrapping框架,在此基础上实现了关系抽取方法并以此从医学文章中抽取关系并将其用于部分知识库的构建。吴嘉伟等人提出了一种基于深度学习的电子病历抽取方法,使用深度稀疏自动编码来对实体上下文的向量表示进行再表示。
发明内容
本发明的目的在于首次提出了一种针对中文电子病历的关系抽取方法,实现了中文电子病历中实体关系的抽取,抽取的关系类型有治疗和疾病的关系、治疗和症状的关系、检查和疾病的关系、检查和症状的关系以及疾病和症状的关系。并且应用机器学习方法将实体关系的抽取转化为实体对的分类,主要应用了支持向量机模型用作训练和测试。在特征上,本发明首先基于一般性的文本特点提出了基本特征,然后基于中文电子病历文本的特点进行了特征强化,最后由于基本特征和特征强化都只是表面浅层语义上的特征,而忽略了句子结构上的信息,利用LTP工具对中文电子病历文本进行依存句法分析,融入到了特征工程中。
现有研究主要针对英文电子病历,在中文电子病历关系抽取中,主要的研究针对于两个特定实体之间的关系,而没有研究各个医疗实体之间任意两个实体之间的关系;另外,现有研究并没有很好的考虑到中文电子病历特有的语义和结构特点。
针对以上问题,给出了一种融合依存分析的中文电子病历关系抽取方法。为了实现上述目的,本发明给出的技术方案为:
一种基于中文电子病历的关系抽取方法,其特征在于,使用NLPIR分词器对中文电子病历文本进行分词,提取词和词性特征,即基本特征;对中文电子病历文本进行分句,抽取实体对,保留其起始和终止位置信息、实体类别以及修饰信息;
提取电子病历的章节名字为章节信息特征(病历特征),为扩展特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911388053.4/2.html,转载请声明来源钻瓜专利网。