[发明专利]基于高斯混合模型聚类算法的分层级数据可视化方法有效
申请号: | 202110388631.5 | 申请日: | 2021-04-12 |
公开(公告)号: | CN113010615B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 毕家泽;张平哲;陈祎琼;高羽佳;刘澳;张玮 | 申请(专利权)人: | 安徽农业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F16/25 |
代理公司: | 合肥中谷知识产权代理事务所(普通合伙) 34146 | 代理人: | 洪玲 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 模型 算法 层级 数据 可视化 方法 | ||
1.一种基于高斯混合模型聚类算法的分层级数据可视化方法,其特征在于,包括以下步骤:
S1、在网页中接收用户上传的数据文件储存至后台数据库,并统一文件格式;
S2、对统一文件格式后的数据进行分析、清洗预处理,得到待聚类数据;
S3、利用高斯混合模型将待聚类数据进行首次聚类和次级聚类,得到待展示数据;
S4、建立前端页面,利用虚拟滚动技术将待展示数据进行分层级可视化展示;
步骤S1中所述的数据文件包括source、target、value三类数据,source、target为两类基因数据,value值表示source中基因与target中基因之间的关系距离,两类基因数据中的每个基因数据均包括多个基因节点和多个基因节点对应的链接数量;
步骤S2中,统一文件格式的数据分析、清洗预处理步骤包括:利用计算机编译语言,查看数据信息,对于数据缺失情况,进行消灭空值操作,并将本该与其关联的数据清除;检查文件数据字段格式,并对数据进行格式一致化;检测是否有数据同时包含数值与字符串,并对value列进行删除字符串,保留数值操作;另外两类source、target基因数据将保留字符串,删除数值。
2.根据权利要求1所述的一种基于高斯混合模型聚类算法的分层级数据可视化方法,其特征在于:步骤S1中,将数据文件统一文件格式的步骤为:将数据文件统一保存在相同文件夹目录下,在存有数据文件的文件夹目录下新加入bat文件,并对bat文件进行编写,实现文件格式统一,并对文件夹中的数据资源文件进行迭代,更改文件格式为.csv文件。
3.根据权利要求2所述的一种基于高斯混合模型聚类算法的分层级数据可视化方法,其特征在于:步骤S3中,利用高斯混合模型将待聚类数据首次聚类的步骤为:从后台数据库中获取文件数据,将基因节点与其对应的链接数量绑定,用序号标记基因节点并以基因节点序号作为X坐标,以统计好的链接数量作为y坐标,建立二维平面坐标系,将坐标系中的坐标值带入高斯混合模型聚类算法中进行首次聚类,聚类后将每类基因数据的坐标y值相加求和,总和最大的类的基因数据标记为数据集合P;
其中,首次聚类时,以链接数量为基础条件,对基因节点进行升序排列,再将坐标值数据导入高斯混合模型聚类算法中进行聚类;
聚类后以链接数量总和为基础条件,进行类的排序,将链接数量最大的类标记为数据集合P。
4.根据权利要求3所述的一种基于高斯混合模型聚类算法的分层级数据可视化方法,其特征在于:步骤S3中,利用高斯混合模型将待聚类数据次级聚类的步骤为:从后台数据库中获取文件数据,将基因节点与其对应的节点链接关系距离总和进行绑定,用序号重新标记基因节点并以基因节点序号作为X坐标,以基因节点间的关系距离总和为y坐标,进行次级聚类并将每类文件数据的坐标y值相加求和,根据总和排序后将每类文件数据标记为数据集合Q;
其中,次级聚类时,以基因节点间的关系距离总和为基础条件,对基因节点进行升序排列,将坐标值数据导入高斯混合模型聚类算法中进行聚类;
聚类后将每类文件数据中包含的所有基因节点的链接关系距离相加并与其他类文件数据进行比较,以链接关系距离总和为基础条件,进行类的排序,由距离量从高到低依次将类中数据保存于数据集Q1,Q2,Q3,Q4,...,Qn,其中n为类的数量。
5.根据权利要求4所述的一种基于高斯混合模型聚类算法的分层级数据可视化方法,其特征在于:步骤S3中首次聚类和次级聚类均采用序号1,2,3,……,n标记基因节点,以标记的基因节点序号作为X坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110388631.5/1.html,转载请声明来源钻瓜专利网。