[发明专利]一种基于二分类的双峰发射线数据搜寻方法有效
申请号: | 201910612231.0 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110334659B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 屈彩霞;杨海峰;蔡江辉;张继福;赵旭俊 | 申请(专利权)人: | 太原科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 太原高欣科创专利代理事务所(普通合伙) 14109 | 代理人: | 崔雪花;冷锦超 |
地址: | 030024 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于二分类的双峰发射线搜寻方法,首先利用相关子空间方法对双峰发射线数据做出特征提取,通过不同大小数据集,取不同参数时对相关子空间的个数和特征线分析,得出相关子空间的多条特征线;其次,根据相关子空间的特征线之间不同强弱的关联性,利用频繁模式挖掘和粗糙集理论将相关子空间分类;然后,利用支持向量机的方法对选出的训练集进行训练,从而构造出双峰发射线数据的分类模型;本发明的方法对于双峰发射线数据的搜寻具有可行性和有效性;在正样本比例极小的情况下,与其它方法相比,该方法可以将正样本的特征有效学习,从而构造出可用于双峰发射线数据分类的模型。 | ||
搜索关键词: | 一种 基于 分类 双峰 射线 数据 搜寻 方法 | ||
【主权项】:
1.一种基于二分类的双峰发射线数据搜寻方法,其特征在于,包括以下三个阶段:利用相关子空间方法进行特征提取;对特征子空间做出分类;对每一类相关子空间上的数据进行二分类处理;具体包括以下步骤:第一阶段:利用相关子空间方法进行特征提取;a)数据预处理:将现有已证认的双峰发射线数据作为相关子空间方法的预备数据集;对数据进行归一化处理,去红移得到训练数据集,截取数据中波长为
和
之间的数据作为相关子空间中的最终训练数据;b)利用相关子空间方法进行特征提取:计算每个维度属性上,每条数据的局部数据集LDS(O,Fi);O为训练集中的数据,Fi为训练集中的第i维属性;利用KNN计算局部数据集在每个属性维度上,计算每条数据的局部稀疏因子以及局部稀疏差异因子;c)得到相关子空间RS并确定相关子空间个数和相关子空间的特征线;d)对相关子空间做出特征描述:通过特征线的波长覆盖范围Wave、红蓝移之差RBS、线强比LSR三个特性来对特征线做具体描述;第二阶段:对相关子空间做出分类:利用频繁模式挖掘和粗糙集理论将相关子空间分成若干组,具体包括以下步骤:e)选择验证数据集:人眼挑选若干双峰发射线数据,观察相关子空间中的特征位置是否出现双峰发射线;选择用于挖掘的训练集并设置最小支持度阈值s和最小置信度阈值c;f)扫描数据集,得到频繁项集,将频繁模式中的子集组成规则A=>B的形式,计算其支持度s(A=>B)=P(A∪B)和置信度c(A=>B)=P(A|B),并记录下来;通过比较得到强关联规则;g)将选出的每个A=>B形式的强关联规则做变形处理,取A与B的并集A∪B作为该频繁模式最终的关联集合;根据粗糙集理论的上下近似逼近的方法,将关联集合分别取并集和交集作为上近似与下近似的集合;将上下近似分别作为相关子空间的分类结果,得到相关子空间的子集分类;第三阶段:对每一类相关子空间上的数据进行分类处理;h)选择训练集的正样本和负样本,计算相关子空间的特征概率:计算相关子空间中的每个特征出现的频率Pi作为该特征的概率值;i)按照步骤a)的方法进行数据预处理,设置惩罚因子C,迭代最大次数I;选择核函数K,求核值矩阵,初始化拉格朗日因子矩阵α;j)选择测试数据集:从LAMOST DR5数据中随机选取10000条数据作为验证本发明的测试集;人眼检查测试数据集中的正样本,将其标记;利用测试数据集的分类结果,记录运行时间并计算准确率、召回率以及约减率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原科技大学,未经太原科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910612231.0/,转载请声明来源钻瓜专利网。