[发明专利]基于生物学数据的聚类方法及系统、聚类结果评价方法及系统有效

专利信息
申请号: 201510795928.8 申请日: 2015-11-17
公开(公告)号: CN105469108B 公开(公告)日: 2019-04-05
发明(设计)人: 王莹莹;蔡云鹏 申请(专利权)人: 深圳先进技术研究院
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 吴英
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于生物学数据的聚类方法,包括如下步骤:数据获取步骤、数据分类步骤、距离计算步骤以及聚类步骤。本发明还提供了一种基于生物学数据的聚类结果评价方法,包括如下步骤:获取聚类结果的步骤、计算聚类评价分数的步骤、转换聚类评价分数的步骤以及集成决策的步骤。本发明还提供了一种基于生物学数据的聚类系统以及一种基于生物学数据的聚类结果评价系统。本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统,提高了聚类结果的生物学应用价值,实用性强。
搜索关键词: 基于 生物学 数据 方法 系统 结果 评价
【主权项】:
1.一种基于生物学数据的聚类方法,其特征在于,包括如下步骤:数据获取步骤:获取包含多个生物样本的原始生物学数据,每个所述生物样本均包含一种或多种生物学特征,每种所述生物学特征的信息类型包含表达值信息、序列信息以及功能信息中的一种或多种;数据分类步骤:根据每个所述生物样本具有的生物学特征的信息类型,将所述原始生物学数据的多个所述生物样本分为不同的组别,至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据,每组生物样本数据采用矩阵形式进行表达,其中,矩阵的行表示生物学特征,矩阵的列表示生物学样本;距离计算步骤:根据每组生物样本数据具有的生物学特征的信息类型,选择不同的距离计算方式,分别计算每组生物样本数据中多个所述生物样本之间的距离,将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵;其中,在所述距离计算步骤之前还包括采用如下步骤对有序列信息的生物样本数据进行序列对比的步骤:根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多个所述生物样本分为两组以上,其中,所述生物样本的序列特征包括核酸序列特征、以及蛋白质/氨基酸序列特征;针对每组所述生物样本选择不同的替换矩阵,并选择至少两种以上的序列对比算法进行序列对比,获得两个以上序列对比结果;针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分;分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数,每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵;其中,所述第一距离分数=1‑所述第一相似性得分;聚类步骤:根据所述距离矩阵,分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510795928.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top