[发明专利]基于逐层感知机制的生物医学嵌套类型实体识别方法有效

专利信息
申请号: 202110373760.7 申请日: 2021-04-07
公开(公告)号: CN113033207B 公开(公告)日: 2023-08-29
发明(设计)人: 申德荣;胡宇;聂铁铮;寇月;于戈 申请(专利权)人: 东北大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06N3/0464;G06N3/047;G06N3/08
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 梁焱
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 感知 机制 生物医学 嵌套 类型 实体 识别 方法
【说明书】:

发明提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,涉及数据挖掘和自然语言处理技术领域。该方法包括基于向量模式的生物医学文本表示、基于循环神经网络的隐藏特征编码与解码、基于多任务逐层感知机制的嵌套类型实体识别。步骤1为生物医学文本表示步骤,利用一位编码法和预训练特征向量对文本单词构建字符特征和语义特征。步骤2为隐藏特征提取,利用循环神经网络和RELU激活函数对初始特征进行隐藏信息发现、编码与解码。步骤3为多任务逐层感知机制,利用归一化函数在步骤2基础上,识别简单实体,通过迭代组合方法,逐层感知识别嵌套类型实体。本发明可以对生物医学文本中的嵌套类型实体进行识别提取,并取得较好的效果。

技术领域

本发明涉及数据挖掘和自然语言处理技术领域,尤其涉及一种基于逐层感知机制的生物医学嵌套类型实体识别方法。

背景技术

生物医学命名实体识别是在原始文本中识别生物医学命名实体的任务。生物医学命名实体的一个重要特点是使用嵌套实体名称。耦合的实体组成结构,由于其实体边界难以准确划定,降低了数据可理解性,给语义发现、信息检索等多个下游任务带来巨大挑战。生物医学实体识别作为文本理解的重要前置技术,通过挖掘实体及其上下文数据特征,以标识引用同一真实世界概念的数据实例,从而消除歧义、增强语义。

作为文本理解的重要前置步骤,传统的生物医学实体识别方法通常采用两种方式:(1)字符串匹配与规则发现方法,即是以专家定义的规则,从人工维护的生物医学领域专业词典中发现并抽取相关的生物医学实体。其主要方法是由专家解析文本的构成规则,并通过比对目标词项和生物医学词典,通过发现词典中类似的术语单元以识别相关实体。(2)采用统计机器学习方法,结合生物医学文本数据的特点训练模型,进行实体识别。其本质是将生物医学实体识别看做是词项的多分类问题。

然而,当前实际应用中出现的大量复杂数据结构,传统的生物医学实体识别技术无法进行较好的处理。其中一个重要的数据结构是嵌套类型实体,基于多任务多粒度的逐层感知机制可以较好地分析处理该类型实体。例如,部分实体名称可能局部或全部覆盖另外一部分实体名称,人工维护的生物医学词典由于更新不具有实时性,对新出现的实体名称可能并未纳入,统计机器学习模型仅依赖于词序列的概率分布,其主要关注词的共现现象,在方法上并未对文本结构进行更深入的处理,因而无法有效分析复杂实体的构成规则。为了有效地分析处理该类型实体,生物医学实体识别方法应当在较少地依赖于人工知识的前提下,有效地对构成实体的各种规则进行更精细地分析与处理。

相对于识别简单结构的实体数据,嵌套类型实体识别需要额外具备以下两个能力:(1)交互构成的嵌套类型实体的解耦合能力。给定两个交互构成的生物医学实体(ei,ej),(ei,ej)可能是局部或全部重叠,嵌套类型实体识别方法,相比于传统的实体识别方法,应完整地识别出每一个具有完备语义的实体构成单元。(2)每个独立实体的识别能力。如果该实体是独立实体,即不与其它任一实体耦合,嵌套类型实体识别方法应当与传统的实体识别方法具有相同的识别能力。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于逐层感知机制的生物医学嵌套类型实体识别方法,可以对生物医学文本中的嵌套类型实体进行识别提取。

为解决上述技术问题,本发明所采取的技术方案是:

一种基于逐层感知机制的生物医学嵌套类型实体识别方法,包括以下步骤:

步骤1:生物医学文本表示;

利用向量模式对实体及其上下文进行描述,构建文本中每一个单词的字符特征和语义特征:采用一位有效编码法对构成文本单词的每一个字符进行编码,采用文本嵌入预训练向量对构成文本单词的语义特征进行编码;由每一个单词的字符特征编码和语义特征编码所描述的文本作为初始文本表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110373760.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top