[发明专利]结合生物信息本体与注意力机制的医学文献相似判别方法在审

专利信息
申请号: 202011084530.0 申请日: 2020-10-12
公开(公告)号: CN112183063A 公开(公告)日: 2021-01-05
发明(设计)人: 陈霞;李美晶 申请(专利权)人: 上海海事大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/242;G06F40/247;G06F40/289;G06F40/284;G06F16/35
代理公司: 上海互顺专利代理事务所(普通合伙) 31332 代理人: 成秋丽
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结合 生物 信息 本体 注意力 机制 医学 文献 相似 判别 方法
【权利要求书】:

1.结合生物信息本体与注意力机制的医学文献相似判别方法,其特征在于,包含以下步骤:

S1、从医学文献中获取文献标题和摘要,经过主题词提取算法TextRank对获取的摘要精炼,形成代表性文档;

S2、从步骤S1中形成的代表性文档提取GO术语,生成GO术语的集合;

S3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;

S4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;

所述步骤S1进一步包含以下步骤:

S1.1、选取每篇医学文献的摘要;

S1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;

S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档;

步骤S1.2包含以下步骤:

S1.2-1、对每篇医学文献的摘要以句子为单位划分;

S1.2-2、对步骤S1.2-1中的文献句子训练相应句向量;

S1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:

其中,Vi和Vj分别为句子i和句子j的句子向量表示;

S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算出,句子的TextRank计算方法如下:

其中,Vi为图中顶点i,表示为句子i;In(Vi)为指向顶点Vi的顶点集合;

Out(Vj)为由顶点Vj指出的顶点的集合;wji为边的权重,表示为顶点Vj和顶点Vi的相似度值;系数d取0.85;

S1.2-5、将一定数量的排名最高的句子构成最后的摘要;

所述步骤S3进一步包含以下步骤:

S3.1、GO术语相似度计算,对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度,计算方法如下:

GO术语的信息内容,计算如下:

Ic(f)=-log P(f)

其中P(f)表示GO术语f及其子项存在的概率:

给定一个GO术语A,A及其祖先的GO术语DAG被定义为DAGA=(a,TA,EA),其中TA是包含A及其祖先的GO术语的集合,EA是DAGA中TA节点之间的链接边集合,根据链接的类型和子节点的数量计算语义贡献的权重:

We=1/(c+nc(t))+d

nc(t)为GO术语t的子项总数;c和d都是常数变量;d是指通过链接的语义贡献有多强;参数c受基于等式的有效权重范围的限制,要使0<We≤1,参数c取0.67;

对于DAGA=(A,TA,EA)中的每个术语,它对目标术语A具有语义贡献,定义为:

GO术语A的语义值是DAGA中S值的总和:

最后,DAGA=(A,TA,EA)和DAGB=(A,TB,EB),GO术语A和GO术语B的相似度计算如下:

其中,t是TA和TB中存在的公共GO术语项;SA(t)和SB(t)分别是基于TA和TB的;

S3.2、调用归一化函数,对步骤S3.1中得到的GO术语相似度归一化,突出GO术语在句中的权重;

S3.3、生成权重矩阵,权重矩阵大小为m2*m1,具体地m1为代表性文档1中句子S1中的单词个数,m2为代表性文档2中句子S2中的单词个数,矩阵中非GO术语与非GO术语间、非GO术语与GO术语间的元素用1表示,矩阵中GO术语与GO术语间元素用上述步骤S3.2得到的归一化结果+1表示;

所述步骤S4进一步包含以下步骤:

S4.1、训练词向量;

S4.2、代表性文档1中句子S1与代表性文档2中句子S2进行相似度计算,计算公式如下:

其中Vi’为加权后Si的句向量,Vj为句子Sj的句向量,计算公式如下:

加权Vi’的的计算公式如下:

Vi′=权重矩阵*句子Si形成的词向量矩阵

S4.3、得到代表性文档1与代表性文档2文本相似度,计算公式如下:

其中,S1i为代表性文档Doc1中第i个句子,S2j为代表性文档Doc2中第j个句子,m为代表性文档Doc1中的句子数量,n为代表性文档Doc2中的句子数量;

S4.4、根据步骤S4.3得到的两篇医学文献的代表性文档相似度,判别两篇医学文献是否相似,根据设置的阈值,代表性文档相似度超过阈值的即判别两篇医学文献相似,不超过则判别两篇医学文献不相似。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011084530.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top