[发明专利]一种生物医学实体关系的文献检索系统及检索方法在审

专利信息
申请号: 201910027427.3 申请日: 2019-01-11
公开(公告)号: CN109857731A 公开(公告)日: 2019-06-07
发明(设计)人: 白天;葛岩;姚刚;杨昌青;宫雷光;李颖;黄岚 申请(专利权)人: 吉林大学
主分类号: G06F16/215 分类号: G06F16/215;G06F16/248
代理公司: 吉林长春新纪元专利代理有限责任公司 22100 代理人: 陈宏伟
地址: 130011 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生物医学 实体关系 文献检索系统 检索 可视化 数据库 数据库整合 返回结果 结构组织 列表形式 用户检索 清晰
【权利要求书】:

1.一种生物医学实体关系的文献检索系统,组成如下:

(一)数据库融合

对同一个生物医学实体在不同的数据库中的不同名称统一实体名称:

采用NCBI基因符号作为gene/protein的代表名称,采用MeSH词汇作为disease,chemical的代表名称,采用KEGG的pathway名字作为pathway的代表名称,采用geneontology的名称作为GO的名称;

使用实体的名称及其同义词构建一个词库,词库中存放了实体的ID,Name以及Type属性,用Type属性将不同类型的实体标识出来,通过ID,name以及synonyms进行快速检索;

(1)数据清洗

将csv、xml、owl、txt等格式的文本数据读入在PC端构建的数据库中,并对不合法数据进行清理:

数据分为实体和实体关系两种类型:

实体:包含id,name,symbol,definition,xref,synonyms,parentId,isParent等属性;对存在继承关系(is-a)的实体更新isParent属性,来判断当前节点是否包含子节点;

实体关系:采用三元组的形式进行存储,即entity-relationship-entity的形式,部分实体关系数据包括inferScore属性,用来度量此关系的可信度;

(2)Disease Ontology词汇映射

将Disease Ontology(DO)映射到了Medical Subject Headings(MeSH)上,该工作需要以下三个步骤:

a.MFR

通过DO数据库中的cross-reference属性,将DO词汇映射到MeSH上;

b.MFS

通过将DO数据库中的的同义词和MeSH的同义词做比较,如果匹配则映射到MeSH上;

c.MFI

将前两步还没有映射到MeSH的DO词汇通过继承关系映射到最近的父节点,然后再通过MFR和MFS进行映射;

将从DO到MeSH的映射关系存入字典索引中,其中字典索引包括了所有实体的名称,同义词以及DO-MeSH的映射关系;

(二)实体关系网络数据库构建

实体关系的来源包括来自网络数据库、基因本体和疾病本体;

实体关系在数据库中以三元组的形式按照关系类别进行分别存储;疾病等本体中的继承关系则是按照树状结构存储,并且用“is_a”进行描述;

构建实体关系网络数据库需要以下三个步骤:

a.将疾病的根节点载入网络中,根据继承关系将其所有子节点载入网络中,经过递归迭代,直到所有的疾病词汇以及关系都载入网络中;

b.将疾病词汇放入集合中,然后根据疾病与基因的关系将基因实体以及两者之间的关系数据载入到网络中;

c.将基因词汇放入新的集合中,按照上述步骤,将

disease-gene,disease-miRNA,gene-gene,gene-GO,disease-chemical,gene-chemical,disease-pathway,gene-pathway,chemical-pathway关系数据载入网络中;

在载入实体关系数据的过程中,需要将实体间关系的可信度权重做规范化处理,使用打分函数将实体关系的权重归一化在(0-1)之间,打分函数如下所示:

scorei=wi/max(wi)

其中,

scorei是实体间关系的可信度,其范围为(0-1);

i是实体关系的序号;

wi为实体关系可信度权重;

max(wi)为实体关系可信度权重的最大值;

(三)路径检索、排序及约束

(1)路径检索

通过(二)中的步骤,实体关系被构建成了一个双向有向图;检索实体关系时,需要先输入两个实体信息,接受实体信息后,通过以下两个步骤构建子图:

a.输入的两个实体分别作为起始点和终点,然后在图中找到跟起始实体名称匹配的节点;

b.通过改进的深度优先搜索算法进行路径检索;检索过程中,将路径中的节点数量设置在4个及以内;如果找到匹配的终止节点则将这条路径保存下来,直到将整个图遍历一遍;

在很多检索结果中,两个实体之间关系路径往往很多,为了能更有效的从众多的检索结果中发现有意义的关系路径,需要通过两个策略来对结果优化,路径排序和检索约束:

(2)路径排序

在构建网络的过程中,将实体之间的inferScore进行了规范化处理,并且限制在(0-1)之间,对于没有inferScore属性的两个实体关系则按照数值为0处理;排序公式如下所示:

其中,pathScorei表示第i条路径的得分,得分越高,优先级越大;

scorej表示第j条边的得分;

n表示scorej不为0的边数的和;

e表示自然常数;

对返回的路径通过以下规则进行排序,首先按照路径长短排序,路径长度越短,优先级越高;如果路径长度相同,则按照计算的路径优先级排序,优先级越高的越排在前面;排好序后我们选择前10条路径返回给用户;

(3)检索约束

通过上面的路径排序的方法仅仅返回10条路径,其余的路径中也包含了有意义的间接关系,仍提供查看所有路径的接口,通过分页的形式展现给用户;路径中节点数量大于等于4的路径提供根据中间经过节点的类型来进行约束的检索方式;

(四)可视化检索

可视化的检索结果主要分为两部分,一部分是实体,通过矩形节点表示,不同类型的节点通过不同的颜色区分,边的权重的大小用粗细程度刻画。关系类型通过边上的label的形式显示。

2.一种生物医学实体关系的文献检索系统的检索方法,包括以下步骤:

(一)接收用户的查询条件

用户向系统中输入想要检索关系的两个实体名称,可以使用ID或关键字检索genes,chemicals,diseases,pathways,miRNAs和gene ontology等实体间的组合;

(二)判断查询条件是否合法

系统判断输入的实体名称是否合法,若不合法,则向用户反馈失败信息;

(三)检索实体关系数据并显示

若用户输入的两个实体信息合法,则系统将在权利要求书1步骤(二)生成的实体关系网络中检索输入的两个实体的关系,步骤如下:

a.通过路径检索算法在整个网络中进行检索,然后排序返回前10条路径,包括PubMedID以及Title,可以通过点击链接跳转到PubMed网站查看论文详细信息;

b.通过Arbor.js将节点和边绘制出来,边上标注连接的两个节点之间的“is_a”关系或者是支持本条关系的PMID;

(四)设置检索约束

查询两个实体之间的关系,默认返回10条路径以可视化的形式呈现出来,如果想要查看其他的路径信息,可以选择将所有路径分页显示;

对路径中节点数量大于等于4的路径提供了根据中间经过节点的类型来进行约束的检索方式;可以根据自己的需要查询获取感兴趣的路径信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910027427.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top