[发明专利]一种基于主题模型的跨语言层次分类体系匹配方法有效
申请号: | 201710441927.2 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107391565B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 漆桂林;崔轩;吴天星 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/36;G06F16/903 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 唐红 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 语言 层次 分类 体系 匹配 方法 | ||
1.一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:
(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果;
其中,所述步骤(2)中高维主题分布的生成方法具体为:
给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
分别采样bi中的两个单词
为了得到未知变量θ和的值,对模型采用吉布斯采样的方法进行近似推导,给定语料库和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
其中表示去除双词bi以外单词wi,1主题为k的次数,并且有表示去除双词bi以外单词wi,2主题为k的次数,并且表示去除双词bi以外主题为k、分类为c的双词的个数,并且表示双词bi对分类c的关系分布,通过吉布斯采样可以得到隐变量的值为:
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n·|k=∑wnw|k。
2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中获取背景文本的步骤如下:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441927.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据转换方法、装置以及电子设备
- 下一篇:展示多媒体数据的方法及装置