[发明专利]基于特征对的线性关系的数据分析方法有效
申请号: | 201710967812.7 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107798217B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 林晓惠;张艳慧;王珏 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06K9/62 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 线性 关系 数据 分析 方法 | ||
本发明公开了一种基于特征对的线性关系的数据分析方法,属于生物数据分析技术领域,一种从生物大数据中挖掘特征对之间有效的线性组合关系,并利用区分能力强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的超平面,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找疾病诊断的潜在生物标志物。
技术领域
本发明属于生物数据分析技术领域,通过分析、评价特征之间的线性关系,确定潜在的标志物,从而预测样本的类标。
背景技术
基因、蛋白、代谢等组学数据通常维数极高,如何从组学大数据中挖掘出重要的信息,对疾病诊断、药物研发、个性化治疗等具有重要的意义。
在复杂的生命活动中,分子之间相互关联、相互作用,共同反映生命活动的变化。因此,研究特征之间的相互关系,发现隐藏在生物数据中的富含信息的特征已经日益引起人们的关注。Top scoring pair(TSP)算法从水平关系角度成对分析、评价特征,选择区分能力最高的特征对构建分类模型;k-TSP算法选择区分能力最高的k≥1对特征,采用简单多数投票机制构建融合的分类模型。TSP和k-TSP采用少数特征对,利用特征对的水平关系预测未知样本,简单且易于获得生物学的解释。Relative Simplicity(RS)方法从水平、垂直等多角度评价特征的相互关系,确定富含信息的特征。
本发明对特征对的线性关系进行研究,给出基于特征对的线性关系的数据分析方法LC-k-TSP。该方法利用SVM构造特征对的最佳线性组合方式,并根据SVM的分类原理,给出评价特征对的线性组合关系的两个准则:第一准则和第二准则;根据该二准则对特征对的线性组合关系的评价结果,选择区分能力最强的k≥1对特征,构建融合分类器。本发明利用特征对的线性组合关系对样本进行分类,在生物学领域中有着广泛的实际应用价值。
发明内容
本发明为了挖掘生物数据中富含信息的标志特征,从而对未知样本进行准确分类,本发明提出一种基于特征对的线性关系的数据分析方法。对于二分类问题,令F={f1,…,fp}表示特征集合,该方法成对考察特征,对于每一对特征fi,fj∈F,1≤i≠j≤p,建立SVM分类模型,得到基于特征fi,fj的SVM超平面,从而得到该特征对的线性组合。统计分析两类样本在特征对fi,fj的线性组合关系上的差异,计算特征对fi,fj的第一指标值Δij和第二指标值Γij,根据Δij和Γij评价特征对的线性组合关系的区分能力。Δij的取值范围为[0,1],该值越大说明特征fi和fj对应的线性组合关系区分两类样本的能力越大。本发明首先根据每一对特征的Δ值,对所有特征对进行降序排序。如果两对特征的Δ值相同,则采用第二指标对特征的线性组合关系的区分能力进一步的比较。LC-k-TSP方法根据特征对排序结果,选择得分最高的k≥1对特征,利用简单多数投票方式构建融合分类器。
本发明的技术方案:
基于特征对的线性关系的数据分析方法,步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710967812.7/2.html,转载请声明来源钻瓜专利网。