[发明专利]结合生物信息本体与注意力机制的医学文献相似判别方法在审

专利信息
申请号: 202011084530.0 申请日: 2020-10-12
公开(公告)号: CN112183063A 公开(公告)日: 2021-01-05
发明(设计)人: 陈霞;李美晶 申请(专利权)人: 上海海事大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/242;G06F40/247;G06F40/289;G06F40/284;G06F16/35
代理公司: 上海互顺专利代理事务所(普通合伙) 31332 代理人: 成秋丽
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结合 生物 信息 本体 注意力 机制 医学 文献 相似 判别 方法
【说明书】:

发明提出了结合生物信息本体与注意力机制的医学文献相似判别方法。该方法具体包括对输入医学文献的标题和摘要经由TextRank技术(主题提取算法)处理,进一步精炼生成代表文档;识别医学文献中的生物信息本体(本发明使用生物信息本体中基因本体,Gene Ontology,简称GO);结合注意力机制形成权重矩阵,对句中GO术语加权;计算医学文献的相似度,最终判别两篇文献是否相似。本发明区别于传统语义计算文本相似度方法,生物信息本体的使用统一了两篇医学文献中同一生物意义的表达;结合注意力机制的思想,凸显GO术语在医学文献中的重要性,以此来提高判别医学文献相似的正确性。

技术领域

本发明涉及自然语言处理文献相似度计算,更具体地,涉及生物信息本体和注意力机制的运用。

背景技术

文献相似度的研究在文本聚类、信息检索、文档复制检测等领域的运用具有重要意义。传统的文本相似度方法,诸如词袋模型(bag-of-words,简称BOW)测量短文本对之间的相似度,其认为相关文档比不相关文档更可能共享通用术语;结合语义进行相似度计算,学习单词的词嵌入表示、利用单词的顺序、词性(POS)标签等等。当进行相似度计算的文本是医学文献时,即使是结合语义进行相似度计算的方法,其并不能将医学用词的不同表述相统一。此外,传统文本相似度方法中并未将重点突出,在计算过程中所有的文本内容重要性一致,而实际中行业的某些行业术语是可以判别文章的大范围类别,在计算过程中应重点关注这类术语。

发明内容

本发明的目的在于提供一种判别医学文献是否相似的方法,解决现有文献相似判别中的实际问题。GO术语的使用可以统一两篇医学文献中同一生物意义的表达,且在两篇医学文献中若有相类似GO术语的出现,也说明了两篇医学文献更为相关。所以结合注意力机制的思想,突出文献中GO术语在文中的重要性,形成权重矩阵,最后再对两篇医学文献进行相似判别。

具体地,本发明通过以下方案实现上述目的:

结合生物信息本体与注意力机制的医学文献相似判别方法,包含以下步骤:

S1、从医学文献中获取文献标题和摘要,经过TextRank技术对获取的摘要精炼,形成代表性文档;

S2、从步骤S1中形成的代表性文档提取GO术语(术语,基因本体中的每个词条本说明中简称为术语),生成GO术语的集合;

S3、对句中出现的GO术语加权重,突出GO术语在句中的重要性,并生成权重矩阵;

S4、结合步骤S3得到的权重矩阵,用文本相似度的计算方法得到代表性文档间的相似度,最后判别文献是否相似;

优选地,所述步骤S1进一步包含以下步骤:

S1.1、选取每篇医学文献的摘要;

S1.2、对步骤S1.1得到的摘要使用TextRank技术,得到精简后的摘要;

S1.3、医学文献的标题和步骤S1.2中所得摘要构成该医学文献的代表性文档。

步骤S1.2包含以下步骤:

S1.2-1、对每篇医学文献的摘要以句子为单位划分;

S1.2-2、使用Doc2vec模型训练句向量;

S1.2-3、计算句子向量间的相似性并存放在矩阵中,句子向量间的相似性计算方法如下:

其中,Vi和Vj分别为句子i和句子j的句子向量表示。

S1.2-4、将步骤S1.2-3中所得的相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算出,句子的TextRank计算方法如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011084530.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top