[发明专利]基于生物学数据的聚类方法及系统、聚类结果评价方法及系统有效
申请号: | 201510795928.8 | 申请日: | 2015-11-17 |
公开(公告)号: | CN105469108B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 王莹莹;蔡云鹏 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 吴英 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于生物学数据的聚类方法,包括如下步骤:数据获取步骤、数据分类步骤、距离计算步骤以及聚类步骤。本发明还提供了一种基于生物学数据的聚类结果评价方法,包括如下步骤:获取聚类结果的步骤、计算聚类评价分数的步骤、转换聚类评价分数的步骤以及集成决策的步骤。本发明还提供了一种基于生物学数据的聚类系统以及一种基于生物学数据的聚类结果评价系统。本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统,提高了聚类结果的生物学应用价值,实用性强。 | ||
搜索关键词: | 基于 生物学 数据 方法 系统 结果 评价 | ||
【主权项】:
1.一种基于生物学数据的聚类方法,其特征在于,包括如下步骤:数据获取步骤:获取包含多个生物样本的原始生物学数据,每个所述生物样本均包含一种或多种生物学特征,每种所述生物学特征的信息类型包含表达值信息、序列信息以及功能信息中的一种或多种;数据分类步骤:根据每个所述生物样本具有的生物学特征的信息类型,将所述原始生物学数据的多个所述生物样本分为不同的组别,至少包括有表达值的生物样本数据、有序列信息的生物样本数据以及有功能信息的生物样本数据,每组生物样本数据采用矩阵形式进行表达,其中,矩阵的行表示生物学特征,矩阵的列表示生物学样本;距离计算步骤:根据每组生物样本数据具有的生物学特征的信息类型,选择不同的距离计算方式,分别计算每组生物样本数据中多个所述生物样本之间的距离,将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵;其中,在所述距离计算步骤之前还包括采用如下步骤对有序列信息的生物样本数据进行序列对比的步骤:根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多个所述生物样本分为两组以上,其中,所述生物样本的序列特征包括核酸序列特征、以及蛋白质/氨基酸序列特征;针对每组所述生物样本选择不同的替换矩阵,并选择至少两种以上的序列对比算法进行序列对比,获得两个以上序列对比结果;针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分;分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数,每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵;其中,所述第一距离分数=1‑所述第一相似性得分;聚类步骤:根据所述距离矩阵,分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510795928.8/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置