[发明专利]结合生物信息本体与注意力机制的医学文献相似判别方法在审
申请号: | 202011084530.0 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112183063A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 陈霞;李美晶 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/247;G06F40/289;G06F40/284;G06F16/35 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 生物 信息 本体 注意力 机制 医学 文献 相似 判别 方法 | ||
1.结合生物信息本体与注意力机制的医学文献相似判别方法,其特征在于,包含以下步骤:
S1、从医学文献中获取文献标题和摘要,经过主题词提取算法TextRank对获取的摘要精炼,形成代表性文档;
S2、从步骤S1中形成的代表性文档提取GO术语,生成GO术语的集合;
S3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;
S4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;
所述步骤S1进一步包含以下步骤:
S1.1、选取每篇医学文献的摘要;
S1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;
S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档;
步骤S1.2包含以下步骤:
S1.2-1、对每篇医学文献的摘要以句子为单位划分;
S1.2-2、对步骤S1.2-1中的文献句子训练相应句向量;
S1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:
其中,Vi和Vj分别为句子i和句子j的句子向量表示;
S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算出,句子的TextRank计算方法如下:
其中,Vi为图中顶点i,表示为句子i;In(Vi)为指向顶点Vi的顶点集合;
Out(Vj)为由顶点Vj指出的顶点的集合;wji为边的权重,表示为顶点Vj和顶点Vi的相似度值;系数d取0.85;
S1.2-5、将一定数量的排名最高的句子构成最后的摘要;
所述步骤S3进一步包含以下步骤:
S3.1、GO术语相似度计算,对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度,计算方法如下:
GO术语的信息内容,计算如下:
Ic(f)=-log P(f)
其中P(f)表示GO术语f及其子项存在的概率:
给定一个GO术语A,A及其祖先的GO术语DAG被定义为DAGA=(a,TA,EA),其中TA是包含A及其祖先的GO术语的集合,EA是DAGA中TA节点之间的链接边集合,根据链接的类型和子节点的数量计算语义贡献的权重:
We=1/(c+nc(t))+d
nc(t)为GO术语t的子项总数;c和d都是常数变量;d是指通过链接的语义贡献有多强;参数c受基于等式的有效权重范围的限制,要使0<We≤1,参数c取0.67;
对于DAGA=(A,TA,EA)中的每个术语,它对目标术语A具有语义贡献,定义为:
GO术语A的语义值是DAGA中S值的总和:
最后,DAGA=(A,TA,EA)和DAGB=(A,TB,EB),GO术语A和GO术语B的相似度计算如下:
其中,t是TA和TB中存在的公共GO术语项;SA(t)和SB(t)分别是基于TA和TB的;
S3.2、调用归一化函数,对步骤S3.1中得到的GO术语相似度归一化,突出GO术语在句中的权重;
S3.3、生成权重矩阵,权重矩阵大小为m2*m1,具体地m1为代表性文档1中句子S1中的单词个数,m2为代表性文档2中句子S2中的单词个数,矩阵中非GO术语与非GO术语间、非GO术语与GO术语间的元素用1表示,矩阵中GO术语与GO术语间元素用上述步骤S3.2得到的归一化结果+1表示;
所述步骤S4进一步包含以下步骤:
S4.1、训练词向量;
S4.2、代表性文档1中句子S1与代表性文档2中句子S2进行相似度计算,计算公式如下:
其中Vi’为加权后Si的句向量,Vj为句子Sj的句向量,计算公式如下:
加权Vi’的的计算公式如下:
Vi′=权重矩阵*句子Si形成的词向量矩阵
S4.3、得到代表性文档1与代表性文档2文本相似度,计算公式如下:
其中,S1i为代表性文档Doc1中第i个句子,S2j为代表性文档Doc2中第j个句子,m为代表性文档Doc1中的句子数量,n为代表性文档Doc2中的句子数量;
S4.4、根据步骤S4.3得到的两篇医学文献的代表性文档相似度,判别两篇医学文献是否相似,根据设置的阈值,代表性文档相似度超过阈值的即判别两篇医学文献相似,不超过则判别两篇医学文献不相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011084530.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置