[发明专利]中文电子病历的分词方法及系统在审
申请号: | 202110303360.9 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113095074A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 杜金莲;密伟;苏航;金雪云 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/237;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 电子 病历 分词 方法 系统 | ||
本发明公开了中文电子病历的分词方法及系统,该方法的主体为基于GNN‑BiLSTM‑CRF的中文电子病历分词模型,包含步骤如下:数据集的构建及数据的处理。将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。训练中文电子病历分词模型。本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。
技术领域
本发明属于自然语言处理领域,是一种基于深度学习的中文电子病历的分词方法及其所构建的系统;具体为使用基于GNN-BiLSTM-CRF的模型对中文电子病历进行分词。
背景技术
电子病历文本分词的任务是医学自然语言处理的重要组成部分,是构建临床辅助诊疗和个人健康信息管理知识图谱等目标的首要步骤,具有重要的应用价值,分词效果的好坏影响知识图谱的质量并最终影响数据的价值发挥。
对中文分词方法的研究已经从二十世纪八十年代持续至今,大致有三类方法:基于词典的匹配法、基于统计学和语言模型的统计分词方法和基于神经网络的深度学习方法。
基于词典匹配法最早于1986年由刘源等人提出,后续又发展出根据大小和方向等多种匹配方法。词典匹配分词速度快,针对性强,无需训练,但是过于依赖词典,且难以消除歧义,对未登录词的识别处理效果也较差。目前已经很少单独用于分词,一般用作模型的一部分来提高分词效果。
基于统计学和语言模型的分词方法较多,Sproat等人在二十世纪九十年代提出的互信息模型,Xue等人在2003年率先使用最大熵模型,Peng等人在2004年提出的条件随机场模型等。该类方法已经在分词方面已经取得了不错的效果,但是较为依赖特征工程,特征定义的好坏直接影响分词的结果。
自2013年Zheng等人将神经网络应用于中文文本分词后,许多学者就开始了基于深度学习的中文分词方法研究。Chen等人在2015年使用RNN的变种LSTM来解决中文分词问题,通过模型的记忆单元学习文本信息的长期依赖。Huang等人将神经网络和统计模型进行结合,提出了BI-LSTM-CRF模型。这些深度学习模型在分词中取得了不错的效果,但是缺点在于对数据集依赖较大,同时不同领域之间的适应性较弱。
目前通用领域的中文分词技术已经日趋成熟,分词结果可以达到极高的标准,比如jieba、pkuseg等分词工具在通用领域开源数据集上的准确率和召回率已经能达到百分之九十以上。但是处理电子病历等特殊的专业领域时,由于存在大量专业术语且新术语与日俱增,以及文本风格特殊等因素的存在,这些基于通用领域数据集训练出来的分词工具会导致许多错误的切分。
许多学者针对中文电子病历分词的问题也进行了研究,取得了一定的成果。如张立邦使用基于半监督学习的方式进行中文电子病历分词,先用领域词典对电子病历进行切分,后引入概率模型估计词的出现概率,最后利用信息熵将未登录词识别转化为最优化问题,利用动态规划算法求解,有效的改良了传统无监督分词方法在处理电子病历时良度失效的问题。Xia通过词典来生成中文临床的部分标记数据,然后和标注数据一起训练半监督条件随机场模型,来解决注释数据稀缺影响模型质量问题。Junjie Xing通过自适应多任务迁移学习的多任务学习框架,建议最小化源和目标域之间隐藏表示的分布距离,彼此适应并获得领域不变特征,通过这种迁移学习的思想来提高分词效果,有效的改善了模型对注释数据严重依赖的问题。
这些研究虽然取得了不错的效果,但是这些模型一般对词典的利用程度极其有限,对数据集依赖较高,而电子病历同时还存在领域隐私性和专业性强导致标注数据集成本较高的问题。领域词典相比于标注数据集成本更低,医学术语的构词方式一般有其规律可循。因此如果能通过领域词典来高效学习这些构词规律等知识,将有利于识别生词,降低对数据集的依赖。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303360.9/2.html,转载请声明来源钻瓜专利网。