[发明专利]基于文本关系相似性的蛋白质交互关系识别方法有效

专利信息
申请号: 201510020404.1 申请日: 2015-01-15
公开(公告)号: CN104537280B 公开(公告)日: 2017-05-31
发明(设计)人: 牛耘;王宇伟;吴红梅;魏欧 申请(专利权)人: 南京航空航天大学
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 南京钟山专利代理有限公司32252 代理人: 戴朝荣
地址: 210016 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 关系 相似性 蛋白质 交互 识别 方法
【说明书】:

技术领域

发明涉及生物医学文献中蛋白质交互关系的自动识别方法,具体来说涉及一种基于文本关系相似性的蛋白质交互关系识别方法。

背景技术

蛋白质是生物细胞最重要的成分。蛋白质作为生命活动的体现者并非孤立存在,它们通过彼此间的作用完成细胞中的大部分过程。蛋白质之间的交互信息Protein-Protein Interaction,PPI对于理解单个蛋白质的功能作用以及整个生物过程是至关重要的,是生物学研究的重要内容,也是解决大量医学难题的关键信息。因而描述蛋白质之间交互关系Protein-Protein Interactions,PPI的网络的建立一直是研究生物过程关注的核心问题,对于生物学研究具有重要意义。因此生物领域专家手工地从医学文献中提取了众多的PPI并录入到统一格式的数据库中,如BIND,DIP,HPRD,IntAct和MINT等等。然而大量的蛋白质交互信息仍散布在以非格式化文本形式存储的科技文献中,并且文献的数目在急剧地增长。依靠手工搜寻提取这些蛋白质交互信息的方式显然不能满足实际需要。因而如何从文献中自动挖掘出蛋白质交互信息成为重要的课题要并且吸引了大量的研究。研究的主要任务是根据生物医学文献中的线索识别存在交互关系的蛋白质对。识别出的交互关系将用于PPI网络的建立。

从文献中自动挖掘蛋白质交互信息的方法涵盖了简单的同现分析到更为复杂的自然语言处理系统,大体可以分为以下三类。

第一类根据蛋白质的同现co-occurrence情况制定策略进行分析。基于同现的方法根据蛋白质在文本中出现位置的相近信息,通过计算两个蛋白质的共现次数来推断它们之间的交互作用。这种方法基于这样的假设:如果两个蛋白质实体经常出现在同一个句子或摘要中,它们则存在某种关系。就是蛋白质实体出现的位置越近、越经常在一起出现则越可能相关,基于这样的假设可通过统计同现频率计算出蛋白质实体存在关系的可能性。

基于共现的PPI识别方法的主要不足是由于蛋白质的同现关系并不一定对应交互关系,这种方法只能抽取已出现的PPI,而不能发现新出现的或较少出现的PPI。而且这种方法没有充分分析包含目标蛋白质对的上下文对非交互关系进行过滤,这样所得结果中会有大量的误报,因而这种方法的识别的精度通常不高。

第二类方法通过建立能够刻画蛋白质交互关系的模式,将其作为规则来寻找蛋白质交互信息。模式匹配法是PPI关系抽取研究的一种主要方法。首先根据蛋白质交互在句子中的常用描述方式建立一组模式。一个模式或规则通常由单词和词性的序列组成,其中标出了形成交互关系的两个蛋白质的位置。抽取PPI时,通过文本匹配寻找对应的交互信息,如果一个模式与一个句子相匹配,则提取出句中相应位置的蛋白质作为存在交互关系的蛋白质对。

Madkour等提出一个BioNoculars系统基于图互增理论使用冗余数据构建领域无关的模板来抽取蛋白质交互关系。这种方法需要手工编写规则,需大量的人力和时间。基于模式匹配的方法有助于提高PPI识别的精确度,然而由于模式集规模的限制导致基于规则或模式的方法明显地降低了召回率。为了减轻手工制定模式的负担,一些系统设计了自动模式获取的算法。比如。Huang等人提出了一种从语料中自动获取模式的方法和一种基于动态规划的匹配算法,该方法将句子对齐,然后把句子中相似的部分提取出来作为抽取蛋白质交互关系的规则。自动建立的模式尽管能够增加模式的数量,然而生成模式的质量仍无法满足高精度交互关系识别的要求。

基于模式匹配的方法存在很大的局限性,其性能依赖于模式的数量和质量而且它无法抽取跨句子的实体关系。由于文本中蛋白质交互关系描述语言的多样性和句法结构的复杂性,简单的句法模式难以处理复杂的句子。同时人工建立简单的模式因其有限的覆盖面导致较低的召回率,而构造复杂模式的过程则又需要花费大量时间。另外,基于模式匹配的方法在未知关键词的情况下不能生成新的模式规则,从而限制了蛋白质关系抽取的可拓展性,一旦规则集的大小达到了一定的规模,便很难将新规则加入现有的规则集。而且当关系抽取系统被应用到新领域的时候,基于规则的方法可能需要预先定义重新制定整个模式规则集以适应新的领域,从而降低了系统的可移植性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510020404.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top