[发明专利]一种文本聚类方法、文本聚类装置及终端设备在审
申请号: | 201811495672.9 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109766437A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 刘志勇;吴又奎;任晓德 | 申请(专利权)人: | 中科恒运股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 秦敏华 |
地址: | 050090 河北省石家庄市新石*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 文本聚类 文本 文本特征 文本向量 终端设备 词向量 分词预处理 聚类结果 聚类模型 词转换 准确率 预设 叠加 申请 学习 | ||
本申请适用于深度学习技术领域,提供了一种文本聚类方法、文本聚类装置及终端设备,包括:获取至少两个待聚类文本,并分别对每个待聚类文本进行分词预处理得到多个文本特征词;利用Word2vec分别将每个文本特征词转换成词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;利用预设的聚类模型对所述待聚类文本的文本向量进行聚类,得到聚类结果。通过上述方法,有效提高了文本聚类的准确率。
技术领域
本申请涉及深度学习技术领域,尤其涉及一种文本聚类方法、文本聚类装置及终端设备。
背景技术
文本聚类是在传统的聚类分析的基础上发展而来的,其依据是同类的文档相似度较大,不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类不需要训练过程,也不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行分类和识别的重要手段,为越来越多的研究人员所关注。但是现有的文本聚类方法仍然得不到较高的准确率。
发明内容
有鉴于此,本申请实施例提供了一种文本聚类方法、文本聚类装置及终端设备,以解决现有的文本聚类方法的结果准确性较低的问题。
本申请实施例的第一方面提供了一种文本聚类方法,包括:
获取至少两个待聚类文本,并分别对每个待聚类文本进行分词预处理得到多个文本特征词;
利用Word2vec分别将每个文本特征词转换成词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;
利用预设的聚类模型对所述待聚类文本的文本向量进行聚类,得到聚类结果。
本申请实施例的第二方面提供了一种文本聚类装置,包括:
预处理单元,用于获取至少两个待聚类文本,并分别对每个待聚类文本进行分词预处理得到多个文本特征词;
转换单元,用于利用Word2vec分别将每个文本特征词转换成词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;
聚类单元,用于利用预设的聚类模型对所述待聚类文本的文本向量进行聚类,得到聚类结果。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现本申请实施例第一方面提供的所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例利用预设的聚类模型对待聚类文本进行聚类,能够有效提高文本分类的准确率。另外,先对待聚类文本进行分词预处理得到多个文本特征词,再利用Word2vec分别将每个文本特征词转换成词向量,并将每个待聚类文本中的所有词向量叠加得到每个待聚类文本的文本向量,通过上述方法,有效提高了文本聚类的计算效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本聚类方法的实现流程示意图;
图2是本申请实施例提供的文本聚类装置的示意图;
图3是本申请实施例提供的终端设备的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科恒运股份有限公司,未经中科恒运股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495672.9/2.html,转载请声明来源钻瓜专利网。