[发明专利]一种基于神经网络的临床医学信息提取方法在审
申请号: | 201711462492.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108182976A | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 李辰;王轩;龙雨;李质婧 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 临床医学 信息提取 词汇 卷积神经网络 上下文信息 形态学信息 机器学习 人为设计 数据领域 医疗数据 字符向量 字符组成 捕获 单词 文本 智能 医学 研究 | ||
本发明公开了一种基于神经网络的临床医学信息提取方法,通常医学文本中具有许多专业性词汇、生僻词汇以及用数字和字符组成的时间表达式等,但是利用卷积神经网络得到的字符向量可以包含单词的形态学信息,因此可以很好的解决这个问题。同时本文使用的双向LSTM能很好地捕获上下文信息。此外,使用神经网络的方法避免了机器学习中人为设计特征这一过程,能很好的解决领域适应的问题。本发明的方法在不同的数据领域上都取得了较好的结果,能高效准确智能地从海量医疗数据中提取有实用价值以及研究意义的信息。
技术领域
本发明涉及生物医学文本自然语言处理领域,具体涉及一种基于神经网络的临床医学信息提取方法。
背景技术
在大数据与“智慧医疗”的时代背景下,医学领域的文本挖掘与信息抽取技术已成为研究者们近年来聚焦的“重中之重”。抽取医学文本中医学实体信息,如时间、事件是医学大数据处理的重要任务之一。但是,用自然语言表述的非结构化医学文本数据有数据量庞大、结构复杂、产生速度快等特征,相关研究人员要从大量文本中快速而准确地获取有价值的知识和信息是非常困难的。所以如何既高效又智能地从海量医疗数据中提取有实用价值以及研究意义的医学知识信息并且进行结构化的表示,更深入的掌握那些未知的、威胁人类健康的疾病信息已刻不容缓。
现有的信息提取方法主要分为规则提取法和机器学习的方法。但由于自然语言的复杂性,构建的规则很难将所有的实体类型进行覆盖;若采用基于有监督的机器学习算法,则由于医学文本的特殊性和复杂性,不同的病症所包含的实体信息重叠度很低,实体种类也很多元化,因而针对不同的病症,都需要预先对一部分文本进行人工标记用作训练文本,且人为构建的特征很难将所有实体种类的特征覆盖。当新领域出现问题时,只能通过重新标记、训练数据来完成学习建模。然而,对医疗数据进行标注需要耗费高等专业人员的大量时间,成本异常高昂。
发明内容
本发明的目的在于克服上述现有技术中存在的问题,提供一种基于神经网络的临床医学信息提取方法。
为了达到上述目的,本发明采用如下技术方案:
步骤1:首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用BIO标签进行标记。
步骤2:针对24个英文字母与其他常见字符构建其对应的初始字符向量表,并以PubMed数据库中的生物医学文章为语料库构建初始词向量。基于步骤1分词后的文本,通过查表获得每个单词对应的初始词向量以及每个字符对应的初始字符向量。
步骤3:构建基于步骤2生成的字符向量与词向量联合输入的神经网络医学实体提取模型。模型分为编码器,解码器与分类器三大部分,分别使用CNN网络与Bi-LSTM网络对字符向量与词向量的输入进行编码,使用Bi-LSTM网络解码,使用softmax分类器完成分类。
步骤4:使用BIO标记后的训练数据训练上述模型,通过对比训练数据中的实际的BIO标签与本模型分类得到后的BIO标签的差异,调整模型参数以优化分类性能。
步骤5:使用测试数据对步骤4训练好的模型进行测试,最终通过softmax分类器得到的BIO标签序列提取出医学实体。
所述步骤2,包括以下步骤:
步骤2.1:利用随机数对现存的所有英文字符初始化其对应的字符向量,具体做法是针对初始化向量的每一维,都从的范围内随机生成一个数字进行赋值,其中dim是字符向量的维度,将所有的初始字符向量集合在一起生成一个初始字符向量表,dim的大小在30至50之间;
步骤2.2:对于训练文本和测试文本中的所有字符,通过查找步骤2.1生成的初始字符向量表获得其对应的初始字符向量。
步骤2.3:利用斯坦福公开的GLoVe词向量模型方法,选取PubMed数据库中的生物医学文章为语料库产生初始词向量表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711462492.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种幼儿园健康风险预测方法
- 下一篇:门诊诊断编码方法和系统