[发明专利]一种通用主题嵌入模型联合训练方法有效
申请号: | 201810368425.6 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108549718B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 顾荣;黄宜华;赵博;肖倩;袁春风 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 目标文本 下降算法 主题模型 初始化 通用的 构建 联合 期望最大化算法 预处理 参数矩阵 多次迭代 模型组合 随机梯度 通用主题 网络结构 训练模型 一次迭代 原始文档 正则化项 采样表 词汇表 建模 语料 | ||
本发明公开了一种通用的主题嵌入模型联合训练方法,包括以下步骤:第一步对输入的原始文档语料进行预处理得到目标文本;第二步对目标文本构建词汇表;第三步初始化网络结构,对模型的参数矩阵进行初始化,并构建负采样表;第四步对主题嵌入模型联合建模、分多次迭代训练模型。每一次迭代过程分为以下三步:第一步,采用期望最大化算法训练主题模型部分;第二步,采用随机梯度下降算法训练嵌入模型部分;第三步,采用完全梯度下降算法训练正则化项部分。本发明可提供一种通用的方式将主题模型与嵌入模型联合训练,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。
技术领域
本发明涉及人工智能、神经网络与自然语言处理领域,具体是一种通用主题嵌入模型联合训练方法。
背景技术
自然语言处理的核心任务之一就是理解文本的语义,许多下游任务如文本分类、词性标注和机器翻译都把其作为初始化步骤以此提升模型性能。“观其伴而知其意”这是英国著名语言学家J.R.Firth的一句名言,换句话说,如果两个词出现在相似的上下文中,它们就是相似的。这就是著名的分布式假说,推动了许多文本模型的发展。
主题模型和嵌入模型是其中最主要的两类模型,两种模型起源不同,主题模型源于贝叶斯统计,概率潜在语义分析pLSA与潜在狄利克雷分布LDA为目前应用最广泛的两个主题模型;而嵌入模型源于神经网络领域,word2vec与doc2vec是普遍流行的两种嵌入模型。由于多种原因,将两种方法结合起来是一个很有前途的研究方向:首先,目前主流主题模型存在的一大缺陷在于只将词与主题联系起来,没有考虑词共现的信息。而众所周知,以嵌入模型典型的如word2vec模型训练得到的词向量可以很好的提出词语之间的关系尤其是语义上的关系。第二,嵌入模型往往缺乏可解释性,而主题模型有基于概率分布的解释性。第三,以LDA为代表的主题模型认为文档的生成是不同主题混合的结果,而神经网络模型习惯于将文档表示为稠密向量。如果结合前者覆盖范围广和后者维度低的特点生成新的模型,可以做到快速检测,同时对隐含语义的解释也会更好。
Baroni曾经在2014年的调研中提出问题“是否两种模型在各自的缺陷地方存在着互补性,在这种情况下,组合模型可能是一个有趣的途径,这可能是未来的研究工作”,近几年,有很多研究学者试图将两种模型结合,这些研究工作大致可以分为两种,一种以嵌入模型来改善主题模型,另一种基于主题模型来提升嵌入模型,但几乎没有研究能将两种模型联合训练,同时改善它们的性能。另外,已有的研究工作都是提出新的、定制化的算法来改善特定的模型,缺少一个通用的方式将很容易的集成现有的各种各样不同的主题模型与嵌入模型。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种通用主题嵌入模型联合训练方法,解决现有的模型组合方式过于依赖特有模型、通用性不足,很难同时提升两种模型等问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种通用主题嵌入模型联合训练方法,包括以下步骤:
(1)使用查表法预先计算sigmoid和softmax函数值;
(2)扫描语料,统计文档中出现的每个单词的频数;
(3)初始化网络结构,首先初始化主题模型的参数:文档主题分布矩阵Θ和主题单词分布矩阵Φ,然后初始化嵌入模型的参数:所有单词的词向量矩阵V、上下文向量矩阵U、所有主题的主题向量矩阵Y、所有文档的文本向量矩阵G;
(4)对主题模型和嵌入模型联合建模得到组合模型HieraVec,目标函数为一个带正则化项的主题模型中词w生成概率与嵌入模型中词w生成概率联立,因此,给定一个文档集合D,单词集合W,主题模型的参数集为Ψ,嵌入模型的参数集为Ω,则对数似然函数L为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810368425.6/2.html,转载请声明来源钻瓜专利网。