[发明专利]一种通用主题嵌入模型联合训练方法有效

申请号：	201810368425.6	申请日：	2018-04-23
公开（公告）号：	CN108549718B	公开（公告）日：	2019-10-18
发明（设计）人：	顾荣;黄宜华;赵博;肖倩;袁春风	申请（专利权）人：	南京大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	苏州威世朋知识产权代理事务所(普通合伙) 32235	代理人：	杨林洁
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	嵌入目标文本下降算法主题模型初始化通用的构建联合期望最大化算法预处理参数矩阵多次迭代模型组合随机梯度通用主题网络结构训练模型一次迭代原始文档正则化项采样表词汇表建模语料
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种通用的主题嵌入模型联合训练方法，包括以下步骤：第一步对输入的原始文档语料进行预处理得到目标文本；第二步对目标文本构建词汇表；第三步初始化网络结构，对模型的参数矩阵进行初始化，并构建负采样表；第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步：第一步，采用期望最大化算法训练主题模型部分；第二步，采用随机梯度下降算法训练嵌入模型部分；第三步，采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练，解决现有的模型组合方式过于依赖特有模型、通用性不足，很难同时提升两种模型等问题。

技术领域

本发明涉及人工智能、神经网络与自然语言处理领域，具体是一种通用主题嵌入模型联合训练方法。

背景技术

自然语言处理的核心任务之一就是理解文本的语义，许多下游任务如文本分类、词性标注和机器翻译都把其作为初始化步骤以此提升模型性能。“观其伴而知其意”这是英国著名语言学家J.R.Firth的一句名言，换句话说，如果两个词出现在相似的上下文中，它们就是相似的。这就是著名的分布式假说，推动了许多文本模型的发展。

主题模型和嵌入模型是其中最主要的两类模型，两种模型起源不同，主题模型源于贝叶斯统计，概率潜在语义分析pLSA与潜在狄利克雷分布LDA为目前应用最广泛的两个主题模型；而嵌入模型源于神经网络领域，word2vec与doc2vec是普遍流行的两种嵌入模型。由于多种原因，将两种方法结合起来是一个很有前途的研究方向：首先，目前主流主题模型存在的一大缺陷在于只将词与主题联系起来,没有考虑词共现的信息。而众所周知，以嵌入模型典型的如word2vec模型训练得到的词向量可以很好的提出词语之间的关系尤其是语义上的关系。第二，嵌入模型往往缺乏可解释性，而主题模型有基于概率分布的解释性。第三，以LDA为代表的主题模型认为文档的生成是不同主题混合的结果，而神经网络模型习惯于将文档表示为稠密向量。如果结合前者覆盖范围广和后者维度低的特点生成新的模型，可以做到快速检测，同时对隐含语义的解释也会更好。

Baroni曾经在2014年的调研中提出问题“是否两种模型在各自的缺陷地方存在着互补性，在这种情况下，组合模型可能是一个有趣的途径，这可能是未来的研究工作”，近几年，有很多研究学者试图将两种模型结合，这些研究工作大致可以分为两种，一种以嵌入模型来改善主题模型，另一种基于主题模型来提升嵌入模型，但几乎没有研究能将两种模型联合训练，同时改善它们的性能。另外，已有的研究工作都是提出新的、定制化的算法来改善特定的模型，缺少一个通用的方式将很容易的集成现有的各种各样不同的主题模型与嵌入模型。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种通用主题嵌入模型联合训练方法，解决现有的模型组合方式过于依赖特有模型、通用性不足，很难同时提升两种模型等问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种通用主题嵌入模型联合训练方法，包括以下步骤：

(1)使用查表法预先计算sigmoid和softmax函数值；

(2)扫描语料，统计文档中出现的每个单词的频数；

(3)初始化网络结构，首先初始化主题模型的参数：文档主题分布矩阵Θ和主题单词分布矩阵Φ，然后初始化嵌入模型的参数：所有单词的词向量矩阵V、上下文向量矩阵U、所有主题的主题向量矩阵Y、所有文档的文本向量矩阵G；

(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec，目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立，因此，给定一个文档集合D，单词集合W，主题模型的参数集为Ψ，嵌入模型的参数集为Ω，则对数似然函数L为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810368425.6/2.html，转载请声明来源钻瓜专利网。

上一篇：自动化部署运维Hadoop生态圈组件的方法及系统
下一篇：一种移动边缘计算网络中基于聚类的自适应缓存方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种通用主题嵌入模型联合训练方法有效

专利文献下载