[发明专利]一种实体关系联合抽取方法及装置在审
申请号: | 202110340031.1 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112926332A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陈培华 | 申请(专利权)人: | 善诊(上海)信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G16H50/20 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 许曼;贾磊 |
地址: | 201203 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 装置 | ||
本文提供了一种实体关系联合抽取方法及装置,其中,方法包括:获取待预测文本数据;利用预先建立的实体关系联合抽取模型对待预测文本数据进行抽取,预测得到词例区间的类型及实体词组的关系类型,词例区间的类型包括实体类型及非实体类型,实体词为实体类型的词例区间,实体词组的关系类型包括关系及非关系;其中,实体关系联合抽取模型用于对文本数据进行预处理;根据预处理得到的信息,预测得到词例区间的类型;根据实体词组及实体词组中实体词之间文字向量,预测得到实体词组的关系类型。本文通过考虑实体词组及实体词组中实体词之间文字向量,充实了文本语义信息,能够精确地提取出复杂文本数据的全部实体词组关系类型。
技术领域
本文涉及数据处理领域,尤其涉及一种实体关系联合抽取方法及装置。
背景技术
随着医疗信息化技术的不断发展,健康检查报告、电子病历等健康医疗数据中存在的大量非结构化文本数据亟需进行有用信息的提取及结构化工作,从而使这些数据在实际应用和生产中产生更大的价值。
医疗数据的实体关系抽取是医疗领域非结构化文本信息提取和构建健康医疗领域知识图谱的核心任务。现有技术中实体关系抽取方法主要有两种:一种是以串联方式进行实体关系抽取,即先进行命名实体识别,识别出文本中相关的医学实体,然后再利用分类方法获取两两实体间的关系;另一种方法是实体关系联合抽取方法,该方法可以利用一个模型同时对文本中的医学实体进行识别,并对其中的两两实体之间判断其关系类别。
对于现有串联方式进行实体关系抽取而言,会造成误差传递和累积,还会产生冗余信息,往往效果不太理想。对于现有实体关系联合抽取方法而言,尽管现有的实体关系联合抽取方法相较于第一种串联方式的抽取方法效果提升明显,但是未考虑两个实体之间文字的上下文语义信息,对于文本结构复杂(例如实体词并列、实体重叠、关系重叠等复杂文本结构),实体和关系数较多(多达上百个)的文本数据,即使在一些专家经验的辅助下,实体关系抽取的效果依然不太理想。
发明内容
本文用于解决现有技术中实体关系联合抽取方法并未考虑实体之间文字对实体关系的影响,未充分识别文本语义信息,存在识别精度差、不适用于实体关系复杂(例如实体词并列、实体词重叠、关系重叠等)且多的场景。
为了解决上述技术问题,本文第一方面提供一种实体关系联合抽取方法,包括:
获取待预测文本数据;
利用预先建立的实体关系联合抽取模型对所述待预测文本数据进行抽取,预测得到词例区间的类型及实体词组的关系类型,所述词例区间的类型包括实体类型及非实体类型,实体词为实体类型的词例区间,所述实体词组的关系类型包括关系及非关系;
其中,所述实体关系联合抽取模型用于对文本数据进行预处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量;根据预处理得到的信息,预测得到词例区间的类型;根据实体词组及实体词组中实体词之间文字向量,预测得到实体词组的关系类型。
本文进一步实施例中,实体关系联合抽取方法还包括:
根据所述待预测文本数据所属领域的允许关系约束字典,对预测得到的实体词组的关系类型进行过滤。
本文进一步实施例中,所述实体关系联合抽取模型包括:预处理模块及分类模块,其中,所述分类模块包括嵌入层、第一分类器、过渡层及第二分类器;
所述预处理模块用于对文本数据进行预处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量;
所述嵌入层连接所述预处理模块,用于根据预处理得到的信息,构建第一向量;
所述第一分类器连接所述嵌入层,根据所述第一向量,预测得到词例区间的类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于善诊(上海)信息技术有限公司,未经善诊(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340031.1/2.html,转载请声明来源钻瓜专利网。