[发明专利]一种文本聚类类簇中心点选取方法及装置在审
申请号: | 201911416870.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113127636A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 薛戬;杨琼 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 聚类类簇 中心点 选取 方法 装置 | ||
1.一种文本聚类类簇中心点选取方法,其特征在于,所述方法包括:
在获取一个文本库之后,通过对所述文本库进行文本聚类得到多个类簇以及每个类簇对应的词频向量;
利用预设词性清洗规则对每个类簇提取实词,得到实词集合;
从每个类簇对应的词频向量中提取所述实词集合中每个实词对应的词频;
根据所述实词集合中每个实词的词频,利用预设词频清洗规则从所述实词集合中提取核心词,得到核心词集合;
根据所述核心词集合,确定所述类簇对应的中心点。
2.根据权利要求1所述的方法,其特征在于,所述利用预设词性清洗规则对每个类簇提取实词,得到实词集合,包括:
获取每个类簇对应的词频向量;
通过解析所述词频向量,得到所述词频向量包含的多个分词以及每个分词的序号标识;
对每个分词标注词性;
根据每个分词的词性,查找预先设定的词性和实词之间的映射关系,判断所述分词是否为实词;
若是,则获取所述分词的序号标识;
根据所述序号标识,在所述词频向量中标记出实词;
收集所述序号标识,得到对应的实词集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述实词集合中每个实词的词频,利用预设词频清洗规则从所述实词集合中提取核心词,得到核心词集合,包括:
获取实词集合中每个实词的词频;
按照词频由高到低的顺序,对所述实词集合中包含的实词进行排序,得到对应的词语队列;
按照从所述词语队列首位至末位的顺序,从所述词语队列中选取预设数目的词语作为核心词;
将所述预设数目的核心词组成所述类簇对应的核心词集合。
4.根据权利要求3所述的方法,其特征在于,所述从所述词语队列中选取预设数目的词语作为核心词,包括:
通过解析类簇对应的词频向量,得到所述词频向量包含的多个分词;
通过对所述多个分词进行文本去重处理,得到所述类簇对应的总字节数;
获取经对所述文本库进行文本聚类得到的类簇数目;
计算所述类簇数目与N的乘积,得到第一数值,所述N为正整数且在预设数值区间内;
计算所述总字节数与所述第一数值之商并做取整运算,得到第二数值;
将所述第二数值,确定为待选取核心词的数目;
按照从所述词语队列首位至末位的顺序,选取所述第二数值对应数目的词语作为核心词。
5.根据权利要求1所述的方法,其特征在于,若存在多个待选中心点,则根据所述核心词集合从所述多个待选中心点中筛选出目标中心点,包括:
通过分别查找所述多个待选中心点,判断是否存在包含所述核心词集合中所有词语的中心点;
若存在且为一个时,则将包含所述核心词集合中所有词语的待选中心点确定为目标中心点;
若存在且为多个时,抽取包含所述核心词集合中所有词语的多个待选中心点,作为待校验中心点;
获取每个待校验中心点对应的词频向量;
通过横向比较每个待校验中心点对应的词频向量,获取每个核心词在不同待校验中心点出现频次最高值;
根据每个核心词在不同待校验中心点出现频次最高值,抽取包含最多个所述频次最高值对应的待校验中心点,作为目标中心点。
6.一种文本聚类类簇中心点选取装置,其特征在于,所述装置包括:
聚类处理单元,用于在获取一个文本库之后,通过对所述文本库进行文本聚类得到多个类簇以及每个类簇对应的词频向量;
词性清洗单元,用于利用预设词性清洗规则对每个类簇提取实词,得到实词集合;
提取单元,用于从每个类簇对应的词频向量中提取所述实词集合中每个实词对应的词频;
词频清洗单元,用于根据所述实词集合中每个实词的词频,利用预设词频清洗规则从所述实词集合中提取核心词,得到核心词集合;
确定单元,用于根据所述核心词集合,确定所述类簇对应的中心点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416870.6/1.html,转载请声明来源钻瓜专利网。