[发明专利]一种基于词向量语义分析的海量短文本聚类方法在审
申请号: | 201611018402.X | 申请日: | 2016-11-03 |
公开(公告)号: | CN106776713A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 缪伟宏;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 语义 分析 海量 文本 方法 | ||
1.一种基于词向量语义分析的海量短文本聚类方法,其特征在于,包括以下步骤:
S1:收集海量文本数据,并对每一文本数据进行预处理;
S2:对预处理后的文本进行word2vec模型训练得到词向量模型;
S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;
S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。
2.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S1的具体过程是:
对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
3.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S3的具体过程如下:
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
4.根据权利要求3所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S4的具体过程如下:
1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;
2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;
3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;
4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。
5.根据权利要求3所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611018402.X/1.html,转载请声明来源钻瓜专利网。