[发明专利]一种基于主题模型的跨语言层次分类体系匹配方法有效
申请号: | 201710441927.2 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107391565B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 漆桂林;崔轩;吴天星 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/36;G06F16/903 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 唐红 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 语言 层次 分类 体系 匹配 方法 | ||
本发明公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。
技术领域
本发明涉及跨语言信息匹配领域,具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。
背景技术
近年来,随着语义Web和信息技术的飞速发展,网络上的数据量呈指数级增长,这些数据也已经广泛应用到了信息社会的各行各业,包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用,提高对网络资源的管理,方便用户快速识别与检索到所需的资源,大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异,造成很多层次分类体系虽然构建的是同样的领域,但是却不能相互之间进行知识的共享与融合。
跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类,目前针对此已经有一些相关工作,更有一些已经形成了相对应的工具系统,取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题,首先将分类的标签放入Google搜索引擎中进行处理,以此得到分类的背景文本,然后对得到的背景文本进行翻译,分别得到中英文的对照文档。
然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义,其余过程均未利用到层次分类体系的结构,而分类结构对跨语言层次分类体系的匹配具有重要作用,而且其采用了Google翻译来获取得到中英文对照文档,翻译得到的文档会引入较大噪声数据,因此会影响到匹配的结果。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于主题模型的跨语言层次分类体系匹配方法,能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类。
技术方案:本发明所述的一种基于主题模型的跨语言层次分类体系匹配方法,依次包括以下步骤:
(1)据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。
进一步的,所述步骤(1)中获取背景文本的步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441927.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据转换方法、装置以及电子设备
- 下一篇:展示多媒体数据的方法及装置