[发明专利]一种面向文本的领域分类关系自动学习方法有效
申请号: | 201810036779.0 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108170840B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 李劲松;张桠童;周天舒;田雨;王昱 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 刘静;邱启旺<国际申请>=<国际公布>= |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向文本的领域分类关系自动学习方法,采用MEDLINE作为语料库,进行术语抽取与概念抽取,将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算,然后各个维度的相似度进行加权,得出最终相似度矩阵,以此为依据进行层次聚类得出初始的树状图,再对树状图进行相应的剪枝和聚簇标记,最终得出体现概念之间的分类关系树状图;本发明不需要大量的手工标记,节省了人力与时间开销;将抽取到的术语与权威知识库UMLS超级叙词表进行映射,得出准确的领域概念;采用层次聚类的分布式方法,结合领域背景知识,提供五个维度相似度的计算;提出基于极值距离估计的无监督的层次聚类动态剪枝方法,能够更好地得出领域相关的分类关系。 | ||
搜索关键词: | 相似度 层次聚类 树状图 维度 抽取 分类关系 领域分类 自动学习 剪枝 知识库 文本 矩阵 语义相似度 最终相似度 背景知识 概念抽取 距离估计 领域概念 时间开销 手工标记 无监督 叙词表 语料库 映射 聚簇 句法 加权 | ||
【主权项】:
1.一种面向文本的领域分类关系自动学习方法,其特征在于,包括以下步骤:/n(1)将从MEDLINE上抽取到的xml格式的论文中的摘要部分存储为txt格式,作为语料库;/n(2)对步骤(1)得到的语料库采用自然语言处理工具MMTx进行初步术语抽取;/n(3)将步骤(2)抽取到的术语与UMLS超级叙词表映射,不同的术语可能会映射到相同的概念;将所有的术语进行概念映射,最终形成领域概念集合;/n(4)综合句法相似度和语义相似度进行概念间相似度的计算,将相似度分为5个维度,最终的概念Ci和Cj之间的相似度Sim(Ci,Cj)是各维度相似度归一化加权的结果,对于n个概念最终得到一个n×n的相似度矩阵;Sim(Ci,Cj)的计算公式如下:/n /n /n其中,wl是第l个维度相似度的权值,前三个维度的相似度是基于句法计算的,后两个维度的相似度是基于语义计算的,具体计算方法如下:/n(4.1)sim1(Ci,Cj)的计算:计算概念Ci和Cj的概念名称Cname的杰卡德相似系数;每个Cname由一系列字符串T构成,那么,概念Ci和Cj的相似度表示为/n /nTi∩Tj={ti∈Ti,tj∈Tj|LD|ti|,|tj|)<α}/n其中,LD|ti|,|tj|)为ti和tj之间的莱文斯坦距离,Ti∩Tj的评估标准是构成它们的字符串之间的莱文斯坦距离小于预定义值α;/n(4.2)sim2(Ci,Cj)的计算:计算概念Ci的概念名称Cname和Cj所代表的术语集β之间的杰卡德相似系数;/n(4.3)sim3(Ci,Cj)的计算:计算概念Ci所代表的术语集β和Cj的概念名称Cname之间的杰卡德相似系数;/n(4.4)sim4(Ci,Cj)的计算:计算两个概念Ci和Cj在临床医学权威知识库SNOMED CT中的相似度;对于概念Ci,首先,查询其在SNOMED CT中的统一标识符conceptID,如果查询不到统一标识符conceptID,则两个概念的相似度为0;如果查询到统一标识符conceptID,则递归查询出概念Ci在SNOMED CT本体库中的所有父节点,得到以概念Ci为中心的由其所有父节点形成的图,采用图的宽度优先搜索算法对两个概念各自的父节点图进行处理,得出二者的公共父节点,其中两个概念的最近距离即为最终距离;对最短距离进行归一化处理即可得到本维度的相似度;/n(4.5)sim5(Ci,Cj)的计算:计算两个概念在DBpedia知识库中的相似度;概念Ci和Cj的相似度是各自从DBpedia中抽取到的类别数组的杰卡德相似系数;/n(5)对相似度矩阵进行层次聚类得出初始的树状图:基于以上5个维度相似度的计算,采用自底向上的凝聚型聚类算法AHC对分类关系进行学习,簇间距离选用最大距离作为标准;/n(6)对树状图进行相应的剪枝和聚簇标记,得出概念之间的分类关系;具体为:首先创建聚簇标记向量λ={λ1,λ2,…,λm},m为所有聚簇标记的总数,然后,对层次聚类产生的树状图进行剪枝操作,若在剪枝的过程中有新的聚簇产生,对新的聚簇进行标记并更新树状图,重复此操作,直到不再有新的聚簇产生,即得到最终的概念之间的分类关系。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810036779.0/,转载请声明来源钻瓜专利网。