[发明专利]一种基于排序学习算法的生物医学文献检索方法有效
申请号: | 201810279010.1 | 申请日: | 2018-03-31 |
公开(公告)号: | CN108520038B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 杨志豪;彭钰莹;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 排序 学习 算法 生物医学 文献 检索 方法 | ||
1.一种基于排序学习算法的生物医学文献检索方法,其特征在于包括以下步骤:
步骤1、利用原始查询进行检索并提取结果,首先搭建一个信息检索系统,输入M组原始查询,通过检索后,得到每个查询对应的前N条查询结果文档,再将查询结果文档放到一个查询池中;
步骤2、构建推荐模型对查询概念进行评级,每个查询由一个或n个概念组成,需要一个模型来评估在查询中的每个概念,并对该概念进行评级,具体分成重要概念、基本概念、弱相关概念和无关概念四个等级,然后给四个等级的概念分别赋予四个概率,即重要概念赋予概率3,基本概念赋予概率2,弱相关概念赋予概率1,无关概念赋予概率0;推荐模型确定一个概念在生物医学领域上是重要的还是不重要的,然后确定是要保持该概念还是移除它,推荐模型需要两种类型的信息:一是如何将概念映射到一组语义类型中,二是如何评价每个基于语义类型的概念,作为推荐模型是由语义映射工具和加权投票方法两部分所构建;使用语义映射工具MetaMap将概念映射成行为、临床药物、生物体这样的语义类型,语义映射工具MetaMap依赖于统一医学语言系统UMLS,将临床概念映射到不同的语义类型,一些语义类型与搜索任务无关,一些语义类型与搜索任务相关;由于概念会映射到一般和特定类型的混合,仅使用映射得到的这些混合类型还不能直接改进检索,还需采用加权投票的方法,对语义类型进行投票,来判断是否该概念对搜索任务表现重要,具体概念评级通过公式(1)进行描述,
式中Rate表示概率,i表示任意概念concept,分段函数a=-2,b=0,c=5,sum表示权重和,weight表示权重,Important表示重要,Essential表示基本,Weak表示弱相关,Irrelevant表示无关;
步骤3、构建查询优化模型并对原始查询进行细化,给定一个原始查询经过构建查询优化模型后得到的评级结果,并对原始查询进行细化,若该概念被评为无关概念,则从原始查询中删除该概念,若该概念被评为弱相关概念,则减少原始查询中该概念的权重,若该概念被评为基本概念,则保持原始查询中该概念的权重不变,若该概念被评为重要概念,则增加原始查询中该概念的权重,具体包括以下子步骤:
(a)删除无关概念,对每个文档进行打分并采用公式(2)进行描述,
式中,Score表示分数,d表示文档,Q表示查询,t表示查询Q中的无关概念项,qtw表示Q中的单项权重,w(t,d)表示文档d中的单项权重;
(b)减少弱相关概念的权重,对每个文档进行打分并采用公式(3)进行描述,
式中,Qr表示减少弱相关概念项的集合,wr表示减少弱相关概念项的权重;
(c)保持基本概念权重不变;
(d)增加重要概念的权重,对每个文档进行打分并采用公式(4)进行描述,
式中,Qb表示增加重要概念项的集合,wb表示增加重要概念项的权重;
(e)被评为重要概念在摘要中出现则认为该查询与这个文档相关,对每个文档进行打分并采用公式(5)进行描述,
式中,使用λ来控制摘要和正文之间在权重上的比重问题;
(f)最终评分功能,将这些改进结合在一个评分方程中,对每个文档进行打分并采用公式(6)进行描述,
式中,wb、wr、λ使用K倍交叉验证;
步骤4、构建查询扩展模型并对查询进行扩展,具体包括以下子步骤:
(a)基于医学主题词表MeSH的查询扩展词的选择,在前面加权的基础上,使用医学主题词表MeSH对查询进行基于本体的扩展,以减少临床查询中存在的临床概念的模糊性,基于医学主题词表MeSH的扩展与一般扩展不同,因为它不使用反馈文档来获取扩展术语,而是从查询中提取医学概念,并使用医学主题词表MeSH库进行扩展,它依赖于每个概念通过推荐模型后的评级结果,只扩展被评级为重要概念,而评为其他三个等级的概念不被展开;
(b)对扩展词进行排序学习建模,采用的排序学习算法,分别是回归算法Regression、基于文档对的算法Ranknet和基于文档列表的算法LambdaMART,这三种算法在检索中可以取得好的排序性能,所以将其引用到查询扩展词排序模型训过程中,对扩展词进行重新排序和加权;
(c)扩展词的相关性标注,在利用扩展模型得到扩展词的集合之后,要对扩展词的相关性进行标注,标注的目的是为了利用排序学习方法训练基于扩展词的排序模型,进而对扩展词重新排序,选择合适的扩展词赋予重要概念的权重,扩展词的相关程度可以通过扩展词对检索性能的影响来衡量,在扩展词的相关性标注中,首先将扩展词加入原始查询进行检索,再将检索结果与原始查询检索得到的结果进行比较,用来判断该扩展词是否能提高检索性能,然后可进行相关性标注,使用平均准确率MAP值对检索结果进行评价,当把扩展词加入原始查询中进行检索时,若平均准确率MAP值对比原始查询结果提高,则对该扩展词标注1,否则为0,相关性标注采用公式(7)进行描述,
式中,MAP表示平均准确率值,t表示扩展词,q表示原始查询,Label表示标注结果值;
(d)对扩展词进行特征选取,为了训练排序模型,需要对扩展词进行特征建模,通过不同特征表示扩展词与原始查询的相关性,扩展词的特征包括扩展词在数据集合中出现的词频率、文档频率、文本相似度BM25得分、扩展词与查询词共现次数,在模型训练的过程中,每一个扩展词都被表示成特征向量的形式;
(e)基于排序学习算法的二次检索,训练好排序模型后,排序模型对查询扩展词进行重新排序,按照排序对扩展词赋予不同的权重,将重新加权后的扩展词加入到原始查询中形成新查询,利用新查询输入检索系统进行检索;
步骤5、融合排序模型,对上述两种设计方法进行融合:一种通过查询优化模型执行改进,将通过推荐模型后的查询概念评级,对其进行细化,删除或重新加权查询概念,得到新查询;另一种是通过查询扩展模型,执行基于医学主题词表MeSH的扩展,将通过推荐模型后的查询概念评级,只扩展评级为重要的概念,对该查询概念扩展词进行排序学习建模,赋予扩展词合适的权重,然后将权重高的扩展词加入原始查询,得到新查询;除了上述的融合排序模型外,也可以单一通过查询优化模型或者查询扩展模型对原始查询进行改进,从而提高检索效率,打分采用公式(8)进行描述,
式中,ISR(i)表示文档i的组合分数,N(i)表示文档i出现的排名列表的数量,Rk表示排名列表k中的文档i的排名;
步骤6、利用新查询进行检索并提取结果,经过上述三个查询改进模型,可以得到改进后的新查询,将新查询输入检索系统,能得到精准的查询结果文档,从而提高检索效率;实验采用文本检索会议TREC2015年评测的数据集,将查询分为训练集、验证集、测试集,用于排序学习模型的训练,针对三种排序学习算法进行扩展词排序模型的训练,训练后的排序模型用于扩展词的加权,生物医学文献预处理部分,采用波特词干算法进行词干化处理,使用停用词表对数据集去停用词,采用平均准确率MAP、准确率P@k、归一化累计折损NDCG@k三种评价指标对实验结果进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810279010.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏发电系统用太阳能电池板
- 下一篇:一种石材抛光、结晶、研磨、清洁垫