[发明专利]一种基于K-MEANS、WORD2VEC的抽取关键词的方法有效

专利信息
申请号: 201710352450.0 申请日: 2017-05-18
公开(公告)号: CN107122352B 公开(公告)日: 2020-04-07
发明(设计)人: 蓝科;王纯斌;覃进学;潘小东 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F16/35;G06K9/62
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 袁英
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 means word2vec 抽取 关键词 方法
【权利要求书】:

1.一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,它包括以下步骤:

S1:文本预处理;

S2:利用WORD2VEC算法构建出空间向量;

S3:使用K-means算法对多维空间中词语进行聚类;

S4:聚类评估,剔除模糊词,得到最终关键词;

所述的步骤S4包括以下子步骤:

S41:剔除模糊词,剔除对多个质心距离均衡的词语点;

S42:在每个聚类中,根据公式:进行计算,其中,Q为该词语在词库的权重,n为空间维度数目,Xi为该点第i维度值,XiZ为质心点的第i维度值,L为修订后的最终距离,取该值最小的词语为该分类中的代表关键词;

S43:取出离质心距离最近的词语,该词语作为最终关键词;

S44:将此词语在领域词库中的权重进行提升,优化词库。

2.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的文本预处理包括如下子步骤:

S11:准备被分析的文本、该文本对应的所属领域的领域词库;

S12:无关词去噪,根据领域词库对文本进行分词处理,分词后的文本结合领域词库,进行去重过滤剔除无关词语。

3.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,若某文本尚无对应的所属领域的领域词库,则进行构建词库。

4.根据权利要求2或3所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述领域词库中,每个词语包含词语本身及权重系数,其中权重系数默认为1。

5.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的空间向量构建,包括如下子步骤:

S21:对每个文档,根据文档所属领域词库进行分词;

S22:利用分词后的文档训练Word2Vec模型,得到所属领域词库的Word2Vec模型;S23:将每个文档中的每个所属的备选关键词代入所属领域的Word2Vec模型,得到每个文档中所属的备选关键词的多维度的词向量。

6.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,采用k-means算法对多维空间词语聚类时,若有指定关键词数目,则在K-means算法中使用该数目作为聚类数目;若没有指定关键词数目,则默认关键词数目为5个。

7.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法,其特征在于,所述的聚类包括以下步骤:

S31:从n个备选关键词中任意选择k个备选关键词作为初始聚类中心;

S32:根据每个聚类备选关键词的均值得到中心关键词,计算每个备选关键词与这些中心关键词的距离,并且根据最小距离,重新对相应关键词进行再次划分;

S33:重新计算每个聚类关键词的均值,即中心关键词的均值;

S34:循环步骤S32~S33,直到目标函数不再变化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710352450.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top