[发明专利]一种政企服务文本聚类方法有效
申请号: | 201910626031.0 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110472046B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 陈远存;郭肇禄;罗云;张文生;谭力江 | 申请(专利权)人: | 广东奥博信息产业股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06Q50/26 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 蔡伟杰 |
地址: | 528000 广东省佛山市禅城*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种政企服务文本聚类方法。本发明首先采集政企服务文本,然后对政企服务文本进行预处理,再对政企服务文本进行特征提取,并利用适应性正弦余弦算法来优化政企服务文本的聚类中心。在适应性正弦余弦算法中,根据当前种群的适应值反馈信息适应性地生成正弦余弦操作算子的搜索参数,加快适应性正弦余弦算法的收敛速度。本发明利用适应性正弦余弦算法来优化政企服务文本的聚类中心,能够提高政企服务文本的聚类效率。 | ||
搜索关键词: | 一种 政企 服务 文本 方法 | ||
【主权项】:
1.一种政企服务文本聚类方法,其特征在于,包括以下步骤:/n步骤1,采集政企服务文本;/n步骤2,对政企服务文本进行预处理;/n步骤3,对政企服务文本进行特征提取得到政企服务文本特征向量;/n步骤4,将得到的政企服务文本特征向量设置为聚类数据集;/n步骤5,利用适应性正弦余弦算法求解出聚类数据集的聚类中心;/n步骤6,利用得到的聚类中心对政企服务文本进行类别划分,即得到政企服务文本的聚类结果;/n其中,步骤5所述的利用适应性正弦余弦算法求解出聚类数据集的聚类中心,包括以下步骤:/n步骤5.1,设置种群大小PSize,设置最大搜索代数MaxGen;/n步骤5.2,初始化当前搜索代数t=0;/n步骤5.3,设置类别数量CLK,然后设置留存系数SFit=VRand(0,2),其中下标i=1,2,…PSize;VRand表示随机实数产生函数;/n步骤5.4,随机生成PSize个个体的当前搜索值;其中,每个个体的当前搜索值都存储了CLK个聚类中心;然后将PSize个个体组成种群;/n步骤5.5,按公式(1)计算种群中每个个体的当前搜索值的适应值:/n /n其中, 为第i个个体的当前搜索值的适应值;k为类别下标;j为样本下标;TDj为聚类数据集中的第j个样本;TCMi,k为第i个个体的当前搜索值所存储的第k个聚类中心;TCk表示第k个类别;/n步骤5.6,保存种群中的最优个体BXt;/n步骤5.7,按公式(2)计算适应性搜索系数ASFit:/n /n其中pta为[0,1]之间的随机实数;/n步骤5.8,以0.5的概率按公式(4)执行适应性正弦操作算子,同时以0.5的概率按公式(5)执行适应性余弦操作算子;其中,公式(4)为:/n /n其中, 为种群中的第i个个体的当前搜索值; 为种群中的第i个个体的新一代搜索值;sin为正弦函数;r1为[0,2×π]之间的随机实数,并且π为圆周率;r2为[0,2]之间的随机实数;/n其中,公式(5)为:/n /n其中,cos为余弦函数;r3为[0,2×π]之间的随机实数;r4为[0,2]之间的随机实数;/n步骤5.9,计算种群中每个个体的新一代搜索值的适应值,然后按公式(6)计算新一代留存系数SFit+1:/n /n其中, 为第i个个体的新一代搜索值的适应值;/n步骤5.10,保存种群中的最优个体BXt,然后设置当前搜索代数t=t+1;/n步骤5.11,如果当前搜索代数t小于MaxGen,则转到步骤5.7,否则转到步骤5.12;/n步骤5.12,提取出最优个体BXt的当前搜索值所存储的CLK个聚类中心得到聚类数据集的聚类中心。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奥博信息产业股份有限公司,未经广东奥博信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910626031.0/,转载请声明来源钻瓜专利网。