[发明专利]一种基于神经网络的临床医学信息提取方法在审
申请号: | 201711462492.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108182976A | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 李辰;王轩;龙雨;李质婧 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于神经网络的临床医学信息提取方法,通常医学文本中具有许多专业性词汇、生僻词汇以及用数字和字符组成的时间表达式等,但是利用卷积神经网络得到的字符向量可以包含单词的形态学信息,因此可以很好的解决这个问题。同时本文使用的双向LSTM能很好地捕获上下文信息。此外,使用神经网络的方法避免了机器学习中人为设计特征这一过程,能很好的解决领域适应的问题。本发明的方法在不同的数据领域上都取得了较好的结果,能高效准确智能地从海量医疗数据中提取有实用价值以及研究意义的信息。 | ||
搜索关键词: | 神经网络 临床医学 信息提取 词汇 卷积神经网络 上下文信息 形态学信息 机器学习 人为设计 数据领域 医疗数据 字符向量 字符组成 捕获 单词 文本 智能 医学 研究 | ||
【主权项】:
1.一种基于神经网络的临床医学信息提取方法,其特征在于,包括以下步骤:步骤1:首先对训练文本和测试文本进行分词处理,将分词后得到的训练文本用BIO标签进行标记;步骤2:针对24个英文字母与其他常见字符构建其对应的初始字符向量表,并以PubMed数据库中的生物医学文章为语料库构建初始词向量,基于步骤1分词后的文本,通过查表获得每个单词对应的初始词向量以及每个字符对应的初始字符向量;步骤3:构建基于步骤2生成的字符向量与词向量联合输入的神经网络医学实体提取模型,模型分为编码器,解码器与分类器三大部分,分别使用CNN网络与Bi‑LSTM网络对字符向量与词向量的输入进行编码,使用Bi‑LSTM网络解码,使用softmax分类器完成分类;步骤4:使用BIO标记后的训练数据训练上述模型,通过对比训练数据中的实际的BIO标签与本模型分类得到后的BIO标签的差异,调整模型参数以优化分类性能;步骤5:使用测试数据对步骤4训练好的模型进行测试,最终通过softmax分类器得到的BIO标签序列提取出医学实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711462492.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种幼儿园健康风险预测方法
- 下一篇:门诊诊断编码方法和系统