[发明专利]一种文本聚类类簇中心点选取方法及装置在审
申请号: | 201911416870.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113127636A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 薛戬;杨琼 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 聚类类簇 中心点 选取 方法 装置 | ||
本发明公开了一种文本聚类类簇中心点选取方法及装置,涉及文本处理技术领域,融合词性、词频因素优化从类簇中选取中心点过程,进而让选取的中心点文本更加准确地体现所属类簇的真实涵义,本发明主要技术方案为:在获取一个文本库之后,通过对所述文本库进行文本聚类得到多个类簇以及每个类簇对应的词频向量;利用预设词性清洗规则对每个类簇提取实词,得到实词集合;从每个类簇对应的词频向量中提取所述实词集合中每个实词对应的词频;根据所述实词集合中每个实词的词频,利用预设词频清洗规则从所述实词集合中提取核心词,得到核心词集合;根据所述核心词集合,确定所述类簇对应的中心点。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本聚类类簇中心点选取方法及装置。
背景技术
文本聚类主要是依据著名的聚类假设(同类的文档相似度较大,而不同类的文档相似度较小),作为一种无监督的机器学习方法。聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
现在通常是,文本聚类算法是根据数据间欧氏距离或者余弦相似度进行划分,如K均值聚类算法(K-means clustering algorithm,KMeans)、simhash算法、cos和jacard算法,同时在选取中心点时也采用平均值。
例如,最常用的KMeans聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(即:数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代地执行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代频次。
然而,现有文本聚类算法,在聚类后仅使用平均值的方式选取中心点作为整个类簇的“代表”而已,并未考虑其他因素对文本聚类中心点选取的影响,比如:分词词性、分词出现词频等等,从而导致选取的文本聚类中心点不够准确,无法让中心点(某一个文本)准确体现所属类簇的真实涵义。
发明内容
有鉴于此,本发明提供一种文本聚类类簇中心点选取方法及装置,主要目的在于融合词性、词频因素优化从类簇中选取中心点过程,进而让选取的中心点文本更加准确地体现所属类簇的真实涵义。
为了达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种文本聚类类簇中心点选取方法,该方法包括:
在获取一个文本库之后,通过对所述文本库进行文本聚类得到多个类簇以及每个类簇对应的词频向量;
利用预设词性清洗规则对每个类簇提取实词,得到实词集合;
从每个类簇对应的词频向量中提取所述实词集合中每个实词对应的词频;
根据所述实词集合中每个实词的词频,利用预设词频清洗规则从所述实词集合中提取核心词,得到核心词集合;
根据所述核心词集合,确定所述类簇对应的中心点。
可选的,所述利用预设词性清洗规则对每个类簇提取实词,得到实词集合,包括:
获取每个类簇对应的词频向量;
通过解析所述词频向量,得到所述词频向量包含的多个分词以及每个分词的序号标识;
对每个分词标注词性;
根据每个分词的词性,查找预先设定的词性和实词之间的映射关系,判断所述分词是否为实词;
若是,则获取所述分词的序号标识;
根据所述序号标识,在所述词频向量中标记出实词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416870.6/2.html,转载请声明来源钻瓜专利网。