[发明专利]基于文本关系相似性的蛋白质交互关系识别方法有效
申请号: | 201510020404.1 | 申请日: | 2015-01-15 |
公开(公告)号: | CN104537280B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 牛耘;王宇伟;吴红梅;魏欧 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 南京钟山专利代理有限公司32252 | 代理人: | 戴朝荣 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 关系 相似性 蛋白质 交互 识别 方法 | ||
技术领域
本发明涉及生物医学文献中蛋白质交互关系的自动识别方法,具体来说涉及一种基于文本关系相似性的蛋白质交互关系识别方法。
背景技术
蛋白质是生物细胞最重要的成分。蛋白质作为生命活动的体现者并非孤立存在,它们通过彼此间的作用完成细胞中的大部分过程。蛋白质之间的交互信息Protein-Protein Interaction,PPI对于理解单个蛋白质的功能作用以及整个生物过程是至关重要的,是生物学研究的重要内容,也是解决大量医学难题的关键信息。因而描述蛋白质之间交互关系Protein-Protein Interactions,PPI的网络的建立一直是研究生物过程关注的核心问题,对于生物学研究具有重要意义。因此生物领域专家手工地从医学文献中提取了众多的PPI并录入到统一格式的数据库中,如BIND,DIP,HPRD,IntAct和MINT等等。然而大量的蛋白质交互信息仍散布在以非格式化文本形式存储的科技文献中,并且文献的数目在急剧地增长。依靠手工搜寻提取这些蛋白质交互信息的方式显然不能满足实际需要。因而如何从文献中自动挖掘出蛋白质交互信息成为重要的课题要并且吸引了大量的研究。研究的主要任务是根据生物医学文献中的线索识别存在交互关系的蛋白质对。识别出的交互关系将用于PPI网络的建立。
从文献中自动挖掘蛋白质交互信息的方法涵盖了简单的同现分析到更为复杂的自然语言处理系统,大体可以分为以下三类。
第一类根据蛋白质的同现co-occurrence情况制定策略进行分析。基于同现的方法根据蛋白质在文本中出现位置的相近信息,通过计算两个蛋白质的共现次数来推断它们之间的交互作用。这种方法基于这样的假设:如果两个蛋白质实体经常出现在同一个句子或摘要中,它们则存在某种关系。就是蛋白质实体出现的位置越近、越经常在一起出现则越可能相关,基于这样的假设可通过统计同现频率计算出蛋白质实体存在关系的可能性。
基于共现的PPI识别方法的主要不足是由于蛋白质的同现关系并不一定对应交互关系,这种方法只能抽取已出现的PPI,而不能发现新出现的或较少出现的PPI。而且这种方法没有充分分析包含目标蛋白质对的上下文对非交互关系进行过滤,这样所得结果中会有大量的误报,因而这种方法的识别的精度通常不高。
第二类方法通过建立能够刻画蛋白质交互关系的模式,将其作为规则来寻找蛋白质交互信息。模式匹配法是PPI关系抽取研究的一种主要方法。首先根据蛋白质交互在句子中的常用描述方式建立一组模式。一个模式或规则通常由单词和词性的序列组成,其中标出了形成交互关系的两个蛋白质的位置。抽取PPI时,通过文本匹配寻找对应的交互信息,如果一个模式与一个句子相匹配,则提取出句中相应位置的蛋白质作为存在交互关系的蛋白质对。
Madkour等提出一个BioNoculars系统基于图互增理论使用冗余数据构建领域无关的模板来抽取蛋白质交互关系。这种方法需要手工编写规则,需大量的人力和时间。基于模式匹配的方法有助于提高PPI识别的精确度,然而由于模式集规模的限制导致基于规则或模式的方法明显地降低了召回率。为了减轻手工制定模式的负担,一些系统设计了自动模式获取的算法。比如。Huang等人提出了一种从语料中自动获取模式的方法和一种基于动态规划的匹配算法,该方法将句子对齐,然后把句子中相似的部分提取出来作为抽取蛋白质交互关系的规则。自动建立的模式尽管能够增加模式的数量,然而生成模式的质量仍无法满足高精度交互关系识别的要求。
基于模式匹配的方法存在很大的局限性,其性能依赖于模式的数量和质量而且它无法抽取跨句子的实体关系。由于文本中蛋白质交互关系描述语言的多样性和句法结构的复杂性,简单的句法模式难以处理复杂的句子。同时人工建立简单的模式因其有限的覆盖面导致较低的召回率,而构造复杂模式的过程则又需要花费大量时间。另外,基于模式匹配的方法在未知关键词的情况下不能生成新的模式规则,从而限制了蛋白质关系抽取的可拓展性,一旦规则集的大小达到了一定的规模,便很难将新规则加入现有的规则集。而且当关系抽取系统被应用到新领域的时候,基于规则的方法可能需要预先定义重新制定整个模式规则集以适应新的领域,从而降低了系统的可移植性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510020404.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用