[发明专利]结合生物信息本体与注意力机制的医学文献相似判别方法在审

申请号：	202011084530.0	申请日：	2020-10-12
公开（公告）号：	CN112183063A	公开（公告）日：	2021-01-05
发明（设计）人：	陈霞;李美晶	申请（专利权）人：	上海海事大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/242;G06F40/247;G06F40/289;G06F40/284;G06F16/35
代理公司：	上海互顺专利代理事务所(普通合伙) 31332	代理人：	成秋丽
地址：	201306 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结合生物信息本体注意力机制医学文献相似判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.结合生物信息本体与注意力机制的医学文献相似判别方法，其特征在于，包含以下步骤：

S1、从医学文献中获取文献标题和摘要，经过主题词提取算法TextRank对获取的摘要精炼，形成代表性文档；

S2、从步骤S1中形成的代表性文档提取GO术语，生成GO术语的集合；

S3、对句中出现的GO术语加权重，突出GO术语在句中的重要性，并生成权重矩阵；

S4、结合步骤S3得到的权重矩阵，用文本相似度的计算方法得到代表性文档间的相似度，最后判别文献是否相似；

所述步骤S1进一步包含以下步骤：

S1.1、选取每篇医学文献的摘要；

S1.2、对步骤S1.1得到的摘要使用TextRank技术，得到精简后的摘要；

S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档；

步骤S1.2包含以下步骤:

S1.2-1、对每篇医学文献的摘要以句子为单位划分；

S1.2-2、对步骤S1.2-1中的文献句子训练相应句向量；

S1.2-3、计算句子向量间的相似性并存放在矩阵中，句子向量间的相似性计算方法如下：

其中，V_i和V_j分别为句子i和句子j的句子向量表示；

S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构，用于句子TextRank计算出，句子的TextRank计算方法如下：

其中，V_i为图中顶点i，表示为句子i；In(V_i)为指向顶点V_i的顶点集合；

Out(V_j)为由顶点V_j指出的顶点的集合；w_ji为边的权重，表示为顶点V_j和顶点V_i的相似度值；系数d取0.85；

S1.2-5、将一定数量的排名最高的句子构成最后的摘要；

所述步骤S3进一步包含以下步骤：

S3.1、GO术语相似度计算，对步骤S2中得到的两个句子中GO术语集合计算两句中GO术语间的相似度，计算方法如下：

GO术语的信息内容，计算如下：

Ic_(f)＝-log P(f)

其中P(f)表示GO术语f及其子项存在的概率：

给定一个GO术语A，A及其祖先的GO术语DAG被定义为DAG_A＝(a，T_A，E_A)，其中T_A是包含A及其祖先的GO术语的集合，E_A是DAG_A中T_A节点之间的链接边集合，根据链接的类型和子节点的数量计算语义贡献的权重：

W_e＝1/(c+nc(t))+d

nc(t)为GO术语t的子项总数；c和d都是常数变量；d是指通过链接的语义贡献有多强；参数c受基于等式的有效权重范围的限制，要使0＜W_e≤1，参数c取0.67；

对于DAG_A＝(A，T_A，E_A)中的每个术语，它对目标术语A具有语义贡献,定义为：

GO术语A的语义值是DAG_A中S值的总和：

最后，DAG_A＝(A，T_A，E_A)和DAG_B＝(A，T_B，E_B)，GO术语A和GO术语B的相似度计算如下：

其中，t是T_A和T_B中存在的公共GO术语项；S_A(t)和S_B(t)分别是基于T_A和T_B的；

S3.2、调用归一化函数，对步骤S3.1中得到的GO术语相似度归一化，突出GO术语在句中的权重；

S3.3、生成权重矩阵，权重矩阵大小为m₂*m₁，具体地m₁为代表性文档1中句子S1中的单词个数，m₂为代表性文档2中句子S₂中的单词个数，矩阵中非GO术语与非GO术语间、非GO术语与GO术语间的元素用1表示，矩阵中GO术语与GO术语间元素用上述步骤S3.2得到的归一化结果+1表示；

所述步骤S4进一步包含以下步骤：

S4.1、训练词向量；

S4.2、代表性文档1中句子S₁与代表性文档2中句子S₂进行相似度计算，计算公式如下：

其中V_i’为加权后S_i的句向量，V_j为句子S_j的句向量，计算公式如下：

加权V_i’的的计算公式如下：

V_i′＝权重矩阵*句子S_i形成的词向量矩阵

S4.3、得到代表性文档1与代表性文档2文本相似度，计算公式如下：

其中，S_1i为代表性文档Doc₁中第i个句子，S_2j为代表性文档Doc₂中第j个句子，m为代表性文档Doc₁中的句子数量，n为代表性文档Doc₂中的句子数量；

S4.4、根据步骤S4.3得到的两篇医学文献的代表性文档相似度，判别两篇医学文献是否相似，根据设置的阈值，代表性文档相似度超过阈值的即判别两篇医学文献相似，不超过则判别两篇医学文献不相似。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海海事大学，未经上海海事大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011084530.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于蝙蝠算法的多头贴片机贴装效率优化方法及系统
下一篇：一种利用磁制冷散热的两相浸没式电池液冷系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]结合生物信息本体与注意力机制的医学文献相似判别方法在审

专利文献下载