[发明专利]一种基于二分类的双峰发射线数据搜寻方法有效
申请号: | 201910612231.0 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110334659B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 屈彩霞;杨海峰;蔡江辉;张继福;赵旭俊 | 申请(专利权)人: | 太原科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 崔雪花;冷锦超 |
地址: | 030024 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 双峰 射线 数据 搜寻 方法 | ||
1.一种基于二分类的双峰发射线数据搜寻方法,其特征在于,包括以下三个阶段:利用相关子空间方法进行特征提取;对特征子空间做出分类;对每一类相关子空间上的数据进行二分类处理;具体包括以下步骤:
第一阶段:利用相关子空间方法进行特征提取;
a)数据预处理:将现有已证认的双峰发射线数据作为相关子空间方法的预备数据集;对数据进行归一化处理,去红移得到训练数据集,截取数据中波长为和之间的数据作为相关子空间中的最终训练数据;
b)利用相关子空间方法进行特征提取:计算每个维度属性上,每条数据的局部数据集LDS(O,Fi);O为训练集中的数据,Fi为训练集中的第i维属性;利用KNN计算局部数据集在每个属性维度上,计算每条数据的局部稀疏因子以及局部稀疏差异因子;
c)得到相关子空间RS并确定相关子空间个数和相关子空间的特征线;
d)对相关子空间做出特征描述:通过特征线的波长覆盖范围Wave、红蓝移之差RBS、线强比LSR三个特性来对特征线做具体描述;
第二阶段:对相关子空间做出分类:利用频繁模式挖掘和粗糙集理论将相关子空间分成若干组,具体包括以下步骤:
e)选择验证数据集:人眼挑选若干双峰发射线数据,观察相关子空间中的特征位置是否出现双峰发射线;选择用于挖掘的训练集并设置最小支持度阈值s和最小置信度阈值c;
f)扫描数据集,得到频繁项集,将频繁模式中的子集组成规则A=B的形式,计算其支持度s(A=B)=P(A∪B)和置信度c(A=B)=P(A|B),并记录下来;通过比较得到强关联规则;
g)将选出的每个A=B形式的强关联规则做变形处理,取A与B的并集A∪B作为该频繁模式最终的关联集合;根据粗糙集理论的上下近似逼近的方法,将关联集合分别取并集和交集作为上近似与下近似的集合;将上下近似分别作为相关子空间的分类结果,得到相关子空间的子集分类;
第三阶段:对每一类相关子空间上的数据进行分类处理;
h)选择训练集的正样本和负样本,计算相关子空间的特征概率:计算相关子空间中的每个特征出现的频率Pi作为该特征的概率值;
i)按照步骤a)的方法进行数据预处理,设置惩罚因子C,迭代最大次数I;选择核函数K,求核值矩阵,初始化拉格朗日因子矩阵α;
j)选择测试数据集:从LAMOST DR5数据中随机选取10000条数据作为验证测试集;人眼检查测试数据集中的正样本,将其标记;利用测试数据集的分类结果,记录运行时间并计算准确率、召回率以及约减率。
2.根据权利要求1所述的一种基于二分类的双峰发射线数据搜寻方法,其特征在于,步骤a包括以下具体步骤:
步骤1:将目前经过研究证认的双峰发射线数据作为相关子空间方法的预备数据集;
步骤2:数据归一化:为保证数据分布在一个尺度上,需将数据做归一化处理,使用的方法为flux/std(flux),其中flux为读出的数据,std(flux)为数据集的标准差;
步骤3:去红移:去红移将数据固定在静止波长下;
步骤4:选择红移小于0.3的数据作为相关子空间需要的训练集数据;
步骤5:截取波长段:选取数据中波长为和之间的数据作为相关子空间中的最终训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原科技大学,未经太原科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910612231.0/1.html,转载请声明来源钻瓜专利网。