[发明专利]一种基于词嵌入和生成式神经网络的主题挖掘方法在审
申请号: | 202210708418.2 | 申请日: | 2022-06-22 |
公开(公告)号: | CN115099188A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 王睿;陈佳怡;黄海平 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 姜梦翔 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入 生成 神经网络 主题 挖掘 方法 | ||
本发明公开了一种基于词嵌入和生成式神经网络的主题挖掘方法,属于自然语言处理领域。本方法包括:对语料库中的文本进行预处理;将文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练。本发明利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,有效提高了主题的一致性;同时采用优化最大平均差的方法进行狄利克雷先验分布对齐,提高了主题的准确性。
技术领域
本发明涉及一种基于词嵌入和生成式神经网络的主题挖掘方法,属于自然语言处理领域。
背景技术
随着网络技术的快速发展,越来越多的信息以文本的形式发布在互联网上,如新闻报道、百科词条、公众号推文等,这些文本中往往包含着大量的主题信息,但若人工地阅读它们需要消耗大量的人力和时间,无法适应文本信息的增长速度。因此人们迫切需要一种能够从大量非结构化的无标注文本中自动挖掘隐含主题的方法,同时希望抽取的主题具有较好的语义连贯性和多样性。
主题建模主要研究从大量文本中发现一组潜在的主题,每个主题描述一个可解释的语义概念,它被广泛的应用于机器学习、自然语言处理和文本挖掘等领域。其中最著名的是Blei等人在2003年提出的隐狄利克雷分配(LDA),它可以挖掘文档中隐含的主题。但由于精确求解的困难,大多数LDA变量都要采用近似推理的方法(如变分推理、吉布斯采样等),这导致该模型需要复杂的数学推导、求解困难、不易扩展。
使用神经网络进行主题建模可以解决该问题。近年来,许多学者基于变分自编码器(VAE)设计了神经主题模型,如Miao等提出的神经变分文档模型(NVDM)和Srivastava等提出的主题模型的自动编码变分推理(NVLDA)等,但这些模型中使用的先验分布(如高斯分布和逻辑正态分布等)都无法捕捉多模态,不利于主题的抽取。针对这一问题,Wang等基于对抗训练提出对抗-神经主题模型(ATM),然而ATM无法推断文档主题分布,因此出现了双向对抗神经主题模型(BAT)。但对抗训练需要达到纳什均衡,梯度下降法无法保证训练的稳定性。于是,Feng等基于Wasserstein自编码器提出了W-LDA,该模型采用最小化最大平均差(MMD)进行狄利克雷先验分布对齐。但该模型基于词袋模型,没有考虑词之间的语义相关性。
综上所述,当前的神经主题模型仍存在有以下不足:
1)已有神经主题模型难以将适合于文本主题建模的狄利克雷先验在主题分布空间建模,限制了模型挖掘出主题的质量。
2)目前的神经主题模型无法将已有的外部语义知识(如词向量等)融入到神经主题建模的过程中,限制了模型挖掘出主题的质量。
3)目前的神经主题模型挖掘出的主题之间相互独立,难以准确地挖掘出主题与主题之间的语义关系。
发明内容
针对上述存在的问题,本发明提供了一种基于词嵌入和生成式神经网络的主题挖掘方法,通过使用最小化最大平均差来实现主题分布空间的隐含文档-主题分布与狄利克雷先验分布对齐,同时利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,有效提高了主题的准确性、一致性以及语意连贯性,
本发明为解决上述技术问题采用的技术方案如下:
一种基于词嵌入和生成式神经网络的主题挖掘方法,具体包括如下步骤:
S1、对语料库中的文本进行预处理,将文档用词袋表示;
S2、将步骤S1得到的文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;
S3、将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210708418.2/2.html,转载请声明来源钻瓜专利网。