[发明专利]一种基于神经网络的临床医学信息提取方法在审
申请号: | 201711462492.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108182976A | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 李辰;王轩;龙雨;李质婧 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 临床医学 信息提取 词汇 卷积神经网络 上下文信息 形态学信息 机器学习 人为设计 数据领域 医疗数据 字符向量 字符组成 捕获 单词 文本 智能 医学 研究 | ||
1.一种基于神经网络的临床医学信息提取方法,其特征在于,包括以下步骤:
步骤1:首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用BIO标签进行标记;
步骤2:针对24个英文字母与其他常见字符构建其对应的初始字符向量表,并以PubMed数据库中的生物医学文章为语料库构建初始词向量,基于步骤1分词后的文本,通过查表获得每个单词对应的初始词向量以及每个字符对应的初始字符向量;
步骤3:构建基于步骤2生成的字符向量与词向量联合输入的神经网络医学实体提取模型,模型分为编码器,解码器与分类器三大部分,分别使用CNN网络与Bi-LSTM网络对字符向量与词向量的输入进行编码,使用Bi-LSTM网络解码,使用softmax分类器完成分类;
步骤4:使用BIO标记后的训练数据训练上述模型,通过对比训练数据中的实际的BIO标签与本模型分类得到后的BIO标签的差异,调整模型参数以优化分类性能;
步骤5:使用测试数据对步骤4训练好的模型进行测试,最终通过softmax分类器得到的BIO标签序列提取出医学实体。
2.根据权利要求1所述的一种基于神经网络的临床医学信息提取方法,其特征在于,所述步骤2,包括以下步骤:
步骤2.1:利用随机数对现存的所有英文字符初始化其对应的字符向量,具体做法是针对初始化向量的每一维,都从的范围内随机生成一个数字进行赋值,其中dim是字符向量的维度,将所有的初始字符向量集合在一起生成一个初始字符向量表,dim的大小在30至50之间;
步骤2.2:对于训练文本和测试文本中的所有字符,通过查找步骤2.1生成的初始字符向量表获得其对应的初始字符向量;
步骤2.3:利用斯坦福公开的GLoVe词向量模型方法,选取PubMed数据库中的生物医学文章为语料库产生初始词向量表;
步骤2.4:对于训练文本和测试文本中的所有单词,通过查找步骤2.3生成的初始词向量表获得其对应的初始词向量。
3.根据权利要求1所述的一种基于神经网络的临床医学信息提取方法,其特征在于,所述步骤3,包括以下步骤:
步骤3.1:利用步骤2.2生成的初始字符向量,将组成每个单词的字符其对应的初始字符向量拼接起来生成初始字符矩阵送入卷积神经网络(以每个单词为单位)进行编码,对于每一个输入至卷积神经网络的初始字符矩阵,首先经过一个卷积层,利用卷积核将组成每个单词相邻字符的初始字符向量进行卷积,然后将卷积层输出的矩阵输入至一个最大池化层,针对于卷积层输出矩阵的每个行向量,利用最大池化层选取数值最大的那一维代表整个行向量包含的信息,则经过最大池化层后,输出一个与初始字符向量维数相同的向量;
步骤3.2:利用步骤2.3生成的初始词向量,将每个句子中所有单词对应的初始词向量拼接起来送入至一个Bi-LSTM中进行编码,其中双向LSTM中包含有两个LSTM层,一个是前向LSTM,一个是后向LSTM,则针对于一个句子中的第t个单词,利用前向LSTM获得包含第一个单词至第t个单词上下文信息的对应向量hft,利用后向LSTM获得包含第t个单词到最后一个单词上下文信息的对应向量hbt,将向量拼接起来,作为第t个单词的词向量ht=(hft,hbt);
步骤3.3:设CNN层输出的每个单词i对应的字符向量为{c1,c2,…,cdim},Bi-LSTMencoding层输出每个单词i对应的词向量为{wh1,wh2,…,whn},则对其进行归一化,即设cmax为字符向量数值最大的那一维,设whmax为单词向量数值最大的那一维,则最终的字符向量为{c1/cmax,c2/cmax,…,cdim/cmax},最终词向量为{wh1/whmax,wh2/whmax,…,whn/whmax},将以上两个向量进行拼接得到每个单词对应的最终向量mi{c1/cmax,c2/cmax,…,cdim/cmax,wh1/whmax,wh2/whmax,…,whn/whmax},将每个句子中所有单词对应的最终向量级联起来形成最终向量矩阵,然后以句子为单位输入至Bi-LSTM网络进行解码;
步骤3.4:将Bi-LSTM解码后的输出向量通过最终的softmax层,得到对每个单词最终的BIO标记结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711462492.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种幼儿园健康风险预测方法
- 下一篇:门诊诊断编码方法和系统