[发明专利]基于双指标粒子群算法的同质人群识别方法在审
| 申请号: | 202011075681.X | 申请日: | 2020-10-09 |
| 公开(公告)号: | CN112308117A | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 胡晓敏;李瑞珠;李敏 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
| 代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 张生梅 |
| 地址: | 510062 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 指标 粒子 算法 同质 人群 识别 方法 | ||
本发明针对单指标聚类算法对公共卫生服务平台无法进行全面分析的不足,提出了一种基于双指标粒子群算法的同质人群识别方法,包括:采集公共卫生服务平台的使用人群信息,作为用户信息数据集;将所述用户信息数据集通过聚类算法获得两个初始适应值;将两个所述初始适应值作为适应函数进行迭代,得到聚类结果,获取同质人群信息数据。本发明通过双指标适应值评价,在两个指标结果的基础上对粒子群聚类进行优化指导,消除单指标的评价倾向性以及扩展内部指标的应用单一性,能够节省人力与时间,全面分析复杂、多样的人群信息。
技术领域
本发明涉及群体智能进化领域,主要涉及一种基于双指标粒子群算法的同质人群识别方法。
背景技术
目前,对于同质人群识别来说,国内外已经有许多将聚类算法应用到人群的识别当中,例如:k-means算法,但它有着对初始中心敏感和对K取值敏感的缺点;基于网格的方法,在精度上存在缺陷;多元回归方法,对数据过于敏感;基于密度的方法抗噪性不强,且对领域半径的取值较为依赖。
另外,由于内部指标的设计具有倾向性,使得单一指标的表达能力受到限制,因此,遗传算法结合聚类算法、差分算法结合聚类算法等以单指标作为优化适应值评价的方法,得到的结果也是单一化的。
对于从事公共卫生服务的工作者来说,根据服务平台的各类使用人群优化工作平台,使得公共卫生服务在最大程度内满足人们的需求是极其重要且一直都需要随着人群的使用而进行的。而公共卫生服务平台的使用人群具备多样性,不同年龄层、不同生活环境等都会存在差异。在以往的平台优化中更多的是以线上问卷调查、线下走访调查的形式对使用人群进行了解,或者通过单指标聚类算法对使用人群数据进行分析,但上述途径需要耗费大量人力与时间,且面对人群信息的复杂性与多样性,分析不够全面。
发明内容
本发明针对单指标聚类算法对公共卫生服务平台无法进行全面分析的不足,提出了一种基于双指标粒子群算法的同质人群识别方法,利用双指标适应值评价进行同质人群聚类分析,在平台优化的效率与全面性上获得充分的提高。
本发明解决上述技术问题所采取的技术方案是:基于双指标粒子群算法的同质人群识别方法,包括:
采集公共卫生服务平台的使用人群信息,作为用户信息数据集;
将所述用户信息数据集通过聚类算法获得两个初始适应值;
将两个所述初始适应值作为适应函数进行迭代,得到聚类结果,获取同质人群信息数据。
所述“采集公共卫生服务平台的使用人群信息,作为用户信息数据集”,包括:
将公共卫生服务平台的使用人群的信息全部转为数字,得到数据集;
将所述数据集转化为可读文件格式;
剔除所述数据集中的无用属性数据列,得到处理后的数据集;
将所述处理后的数据集进行标准化处理,得到所述用户信息数据集。
所述“可读文件格式”,包括:csv格式和/或bat格式。
所述“公共卫生服务平台的使用人群的信息”,包括:国籍、居住地、年龄信息。
两个所述“初始适应值”,为:Fitness1(CH)、Fitness2(S_Dbw)。
所述Fitness1(CH)的获取步骤是:
指标公式:
表示类别中离差矩阵的迹;
表示类别间离差矩阵的迹,m表示整个数据集的平均值向量;N为样本数量;K为迭代次数。
所述Fitness2(S_Dbw)的获取步骤是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011075681.X/2.html,转载请声明来源钻瓜专利网。





