[发明专利]一种基于word2vec‑LDA模型的文本主题词提取方法在审
申请号: | 201710272622.3 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107122349A | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 王鸿泽;崔超远;王伟;屠舒妍 | 申请(专利权)人: | 无锡中科富农物联科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京常青藤知识产权代理有限公司32286 | 代理人: | 金迪 |
地址: | 214000 江苏省无锡市无锡新区太湖国*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于word2vec‑LDA模型的文本主题词提取方法,涉及数据处理领域,所述方法包括如下步骤利用语料库一训练LDA模型,同时利用语料库二训练word2vec模型;在线测试时对测试文本先进行预处理;将LDA模型和word2vec模型参数输入word2vec‑LDA模型,再将测试文本输入word2vec‑LDA模型,并计算文本主题中心向量;根据文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。本发明利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec‑LDA模型。 | ||
搜索关键词: | 一种 基于 word2vec lda 模型 文本 主题词 提取 方法 | ||
【主权项】:
一种基于word2vec‑LDA模型的文本主题词提取方法,包括如下步骤:S1、利用语料库一训练LDA模型;S2、利用语料库二训练word2vec模型,构成词向量空间;S3、在线测试时对测试文本进行预处理,包括对测试文本内容进行分词并去停用词;S4、将LDA模型和word2vec模型参数输入word2vec‑LDA模型,再将测试文本输入word2vec‑LDA模型,并计算文本主题中心向量;S5、根据步骤S4中获取的文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡中科富农物联科技有限公司,未经无锡中科富农物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710272622.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息保存方法及移动终端
- 下一篇:一种多段落文本的特征抽取系统的方法