[发明专利]一种基于主题模型的跨语言层次分类体系匹配方法有效

申请号：	201710441927.2	申请日：	2017-06-13
公开（公告）号：	CN107391565B	公开（公告）日：	2020-11-03
发明（设计）人：	漆桂林;崔轩;吴天星	申请（专利权）人：	东南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335;G06F16/36;G06F16/903
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	唐红
地址：	210000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题模型语言层次分类体系匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题模型的跨语言层次分类体系匹配方法，其特征在于：依次包括以下步骤：

(1)根据给定的两个层次分类体系T^s＝{V^s,E^s}和T^t＝{V^t,E^t}，其中s和t分别表示两种不同的语言，V表示层次分类体系中的分类结点，E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本；同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值：

(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布，然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射，统一映射到一个向量空间中；

(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度，最终可判定为最相关的分类之间可以作为一个分类对结果；

其中，所述步骤(2)中高维主题分布的生成方法具体为：

给定某一种语言的语料库其中包含有C个分类，W个词汇，|D|篇文档，d_i表示第i篇文档，语料库对应的双词文档令z_i∈[1，K]表示双词b_i的主题，C×K维矩阵表示语料库中C个分类的主题分布，其中θ_i，j＝P(x＝i，z＝j)表示分类i下主题j的概率，K×W维矩阵表示语料库中K个主题的词分布，其中表示主题k下单词w出现的概率，|B|×C维矩阵π表示双词关于分类的关系分布，其中π_b，c＝P(b，c)表示双词b下分类c出现的概率，x_i表示双词b_i所属的分类，那么主题模型的生成过程如下：

对每一个分类c∈[1，C]采样其主题分布：θ_c～Dir(α)；

对每一个主题k∈[1，K]采样其词分布：

给定双词关于分类的关系分布π，对语料库中每一个双词b_i∈B，都有：

采样双词b_i的分类x_i～Multi(π_i)；

采样双词b_i的主题

分别采样b_i中的两个单词

为了得到未知变量θ和的值，对模型采用吉布斯采样的方法进行近似推导，给定语料库和去除双词b_i之后其余双词的主题与分类，双词b_i的分类为c，主题为k的概率为：

其中表示去除双词b_i以外单词w_i，1主题为k的次数，并且有表示去除双词b_i以外单词w_i，2主题为k的次数，并且表示去除双词b_i以外主题为k、分类为c的双词的个数，并且表示双词b_i对分类c的关系分布，通过吉布斯采样可以得到隐变量的值为：

其中n_c，k表示主题为k分类为c的单词的个数，并且n_c＝∑_cn_c，k，n_w|k表示主题为k的单词w的个数，并且n_·|k＝∑_wn_w|k。

2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(1)中获取背景文本的步骤如下：

对于一个给定的分类，为了获取代表分类语义信息的背景文本，将分类本身标签与其父类标签一起放入Google搜索引擎中，搜索引擎会返回一个以摘要构成的网页列表，取前10个摘要组成的文档作为该分类的背景文本，并得到网页中的摘要列表，将摘要列表聚合即为该分类结点英文原始背景文本，然后将此文本翻译得到中文的对照文本，对于上述得到的文本首先进行分词和去停用词操作，然后对英文文本进行单词的词根化处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710441927.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主题模型的跨语言层次分类体系匹配方法有效

专利文献下载