[发明专利]一种联合序列标注和模式匹配的事件元素检测方法有效
申请号: | 202110532819.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113177416B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 翟鹏珺;王晨;方钰;徐蔚 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/186;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 序列 标注 模式 匹配 事件 元素 检测 方法 | ||
目前的中文医疗事理知识图谱事件元素检测研究主要基于单一的模式匹配或深度学习模型,且未对事件元素进行长短级粒度划分,不能有效抽取长句级元素,导致了模型灵活性不高、泛化性差。因此,本发明提出了一种联合序列标注和模式匹配的事件元素检测方法,创新点在依据事件类型对其中的事件元素进行粒度区分,并针对不同粒度的事件元素采用不同的方法进行检测。首先,对于短词级事件元素检测,使用基于序列标注的BERT‑BiLSTM‑CRF模型,并结合实体信息、触发词信息等语料特征,以实现较强的可扩展性。其次,通过联合依存句法分析的模式匹配方法,进行了长句级事件元素的检测,由此提高事件元素检测的准确率。
技术领域
本发明涉及计算机自然语言处理中事件抽取的事件元素检测领域。
医疗事件元素检测是医疗事理知识图谱构建任务中的重要子任务。
背景技术
在当前智慧城市日新月异的背景下,智能化的信息技术已经被广泛的应用在了社会生活、工业生产、城市建设等各个领域,使得信息技术更好地服务于人类。其中,智慧医疗的相关研究近几年备受瞩目,特别是面向中文电子病历的自然语言处理任务,其中包含了医疗事理知识图谱的事件元素检测。
事件元素检测是信息抽取中的一个重要且具有挑战性的子任务,根据ACE(Automatic Content Extraction)会议对事件(Event)中事件元素(Event Argument)的定义,事件元素是参与事件发生的一个或多个角色或时间、地点等描述信息,每一种事件类型定义了对应的事件元素角色。如“患者2014-02-03因子宫内膜复杂性增生在我院行全子宫切除术+两侧输卵管切除术+盆腔粘连松懈术。”这一手术事件中包含了时间元素“2014-02-03”,疾病元素“子宫内膜复杂性增生”和手术名称元素“全子宫切除术”、“两侧输卵管切除术”、“盆腔粘连松懈术”。该事件中的元素均为实体粒度的词汇,即短词级事件元素。
在当前的事件元素检测方法中,现有研究大多数关注短词级事件元素的检测,且多利用单一的匹配模型或序列标注的深度学习模型的方法,其中比较流行的有基于序列标注的方法,Bi-LSTM(Bidirectional Long Short-Term Memory)结合CRF的模型在序列标注任务中用得最多,模型效果也较好。Bi-LSTM可以捕获句子前向和后向有用的上下文信息,而CRF在预测当前标签时具有利用句子级别和相邻标签信息的优势。但是,现有模型大多没有对事件元素进行长短级粒度划分,且单一基于的序列标注模型并不能有效抽取长句级元素。
发明内容
鉴于现有技术,本发明提出了一种联合序列标注和模式匹配的事件元素检测方法,该方法基于电子病历诊疗事件的特性,设计出联合触发词信息、实体信息、依存句法信息等特征的BERT-BiLSTM-CRF序列标注模型,使模型适用于多种风格电子病历事件句的事件元素检测。同时,针对包含长句级事件元素的事件句,根据文本的句式特点,利用句法结构分析,联合依存句法特征设计模板匹配方法,实现长句级事件元素检测。
医疗事理知识图谱中事件元素检测是构建智慧医疗领域事理知识图谱的重要子任务之一,从丰富的电子病历文本中抽取出辅助医生诊断、决策的疾病诊疗事件信息具有重要意义。目前,中文医疗领域事理知识图谱构建过程中的事件元素检测研究主要基于单一的模式匹配的方法和基于单一的序列标注的深度学习方法,均未考虑事件语料中事件元素的粒度特性,也忽略了诊疗事件句中的句法结构信息。
针对以上问题,本发明以实现诊疗事件句中的事件元素检测为目标,对中文电子病历文本的事件元素进行了长短粒度划分,并结合事件句的依存句法特征等设计了一种联合序列标注和模式匹配的事件元素检测方法,使得模型能够同时检测短词级事件元素和长句级事件元素,从而提升模型的泛化性能和准确度。
为了实现上述目的,本发明给出的技术方案为:
本发明提供一种联合序列标注模式匹配的事件元素检测方法,包括:
步骤1、对中文现病史文本进行预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532819.2/2.html,转载请声明来源钻瓜专利网。