[发明专利]一种基于K-MEANS、WORD2VEC的抽取关键词的方法有效
申请号: | 201710352450.0 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107122352B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 蓝科;王纯斌;覃进学;潘小东 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 means word2vec 抽取 关键词 方法 | ||
1.一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,它包括以下步骤:
S1:文本预处理;
S2:利用WORD2VEC算法构建出空间向量;
S3:使用K-means算法对多维空间中词语进行聚类;
S4:聚类评估,剔除模糊词,得到最终关键词;
所述的步骤S4包括以下子步骤:
S41:剔除模糊词,剔除对多个质心距离均衡的词语点;
S42:在每个聚类中,根据公式:进行计算,其中,Q为该词语在词库的权重,n为空间维度数目,Xi为该点第i维度值,XiZ为质心点的第i维度值,L为修订后的最终距离,取该值最小的词语为该分类中的代表关键词;
S43:取出离质心距离最近的词语,该词语作为最终关键词;
S44:将此词语在领域词库中的权重进行提升,优化词库。
2.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的文本预处理包括如下子步骤:
S11:准备被分析的文本、该文本对应的所属领域的领域词库;
S12:无关词去噪,根据领域词库对文本进行分词处理,分词后的文本结合领域词库,进行去重过滤剔除无关词语。
3.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,若某文本尚无对应的所属领域的领域词库,则进行构建词库。
4.根据权利要求2或3所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述领域词库中,每个词语包含词语本身及权重系数,其中权重系数默认为1。
5.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的空间向量构建,包括如下子步骤:
S21:对每个文档,根据文档所属领域词库进行分词;
S22:利用分词后的文档训练Word2Vec模型,得到所属领域词库的Word2Vec模型;S23:将每个文档中的每个所属的备选关键词代入所属领域的Word2Vec模型,得到每个文档中所属的备选关键词的多维度的词向量。
6.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,采用k-means算法对多维空间词语聚类时,若有指定关键词数目,则在K-means算法中使用该数目作为聚类数目;若没有指定关键词数目,则默认关键词数目为5个。
7.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的聚类包括以下步骤:
S31:从n个备选关键词中任意选择k个备选关键词作为初始聚类中心;
S32:根据每个聚类备选关键词的均值得到中心关键词,计算每个备选关键词与这些中心关键词的距离,并且根据最小距离,重新对相应关键词进行再次划分;
S33:重新计算每个聚类关键词的均值,即中心关键词的均值;
S34:循环步骤S32~S33,直到目标函数不再变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710352450.0/1.html,转载请声明来源钻瓜专利网。