[发明专利]基于BLSTM和注意力机制的电子病历实体关系抽取方法在审
申请号: | 201810207151.2 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108536754A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 李智;杨金山;李健 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610064 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 注意力机制 电子病历 特征向量 抽取 知识库 电子病历信息 工具包 技术途径 句子级别 文本内容 向量编码 专业词典 自动学习 自然语句 分类器 映射 向量 语句 捕获 上层 | ||
本发明提出一种基于BLSTM和注意力机制的电子病历实体关系抽取方法。该方法首先通过word2vec工具包将电子病历自然语句映射成为基本特征向量,然后利用BLSTM将基本特征向量编码成上层特征向量,接着利用基于词和句子级别的注意力机制捕获表征实体关系的重要文本内容以形成更高层次的特征向量,最后将得到的特征向量输入到softmax分类器中,抽取该语句中所有实体对之间的实体关系。另外,本方法没有利用任何依赖于任何知识库和专业词典来生成基本特征,降低了模型对人工特征工程的依赖性,为自动学习电子病历信息提供了技术途径。
技术领域
本发明属于自然语言处理领域,用于自动抽取电子病历中实体对之间的实体关系。
背景技术
随着信息时代的到来,各领域数据呈爆炸式增长。具体到医疗领域中,积累了大量包含着医疗健康领域知识的电子病历文本。在这种背景下,从非结构化的电子病历中抽取相关信息成为了获取医疗知识的关键,具有重要的应用价值。电子病历实体对之间的关系抽取是其核心任务之一。
目前,电子病历的实体关系抽取主要是采用有监督的机器学习,该方法首先对候选实体进行特征选择,加入医疗知识作为辅助分析,并将抽取得到的特征转化为特征向量,在向量空间模型中进行有监督学习的分类判别,由此而得到实体对的关系。具体又主要分为基于规则、基于特征向量2个研究方向:基于规则方法根据待处理语料涉及领域的不同,通过人工总结归纳出相应的规则或模板,然后采用模板匹配的方法进行实体关系抽取。基于特征向量的方法主要思想是从句子中提取词法、语法信息来构造特征向量,通过计算特征向量的相似度来训练实体关系抽取模型。但是,这些方法存在一些明显的缺点:
(1)模型的性能极大程度依赖于手工特征工程的质量而导致其泛化性能较差,而且十分耗时
(2)规则制定依赖于专家知识和人工归纳
(3)模型过度依赖于知识库和其他NLP系统
发明内容
本发明为了降低现存电子病历实体关系抽取模型对于手工特征工程质量的依赖性和提高模型正确识别实体关系的性能,提出了基于BLSTM和注意力机制的电子病历实体关系抽取方法。为了实现上述目的,该方法首先通过word2vec工具包将电子病历自然语句映射成为基本特征向量,然后利用BLSTM自动将基本特征向量编码成上层特征向量,接着利用基于词和句子级别的注意力机制捕获表征实体关系的重要文本内容以形成更高层次的特征向量,最后将得到的特征向量输入到softmax分类器中,抽取该语句中所有实体对之间的实体关系。另外,本方法没有利用任何依赖于任何知识库和专业词典来生成基本特征,降低了模型对人工特征工程的依赖性
附图说明
图1是该电子病历实体关系抽取模型系统框架图。
图2是循环神经网络(LSTM)单个神经元示意图。
图3是本发明中提出的电子病历实体关系抽取方法流程图。
具体实施方式
下面结合具体实施方式对本发明做进一步的详细说明:
1.得到输入基本特征向量表示
该基本特征向量主要由输入语句词本身(W)、每个词到实体对的相对距离和词类型3个部分连接构成
1)词本身(W)特征:
对于给定的具有n个单词的句子S={x1,x2,…,xn},我们首先利用word2vec工具包将每个单词转换成低维度的实数向量。单词表示是通过嵌入矩阵中的列向量编码的,其中V是一个固定大小的词典,dw是嵌入矩阵的大小
2)每个词到实体对的相对距离特征:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810207151.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:重复信息的确定方法及相关装置
- 下一篇:一种信息标签的管理方法及管理系统