[发明专利]面向不均衡大数据集的无监督文本主题相关基因提取方法在审
申请号: | 202010255801.8 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111460161A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 孙晶涛;李敬明;陈彦萍;张秋余;王忠民;孙韩林;温福喜;何继光 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710121 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 均衡 数据 监督 文本 主题 相关 基因 提取 方法 | ||
本发明公开了一种面向不均衡大数据集的无监督文本主题相关基因提取方法,采用因子分析和密度峰值算法来获取高维样本集的聚类簇,标注无标签样本;利用平均局部密度和信息熵来改进基于CHI统计矩阵的特征选取方法,强化低密度、小样本簇的特征表达度;采用基于负熵的快速固定点算法,分析多维数据间的高阶统计相关性,提取独立的隐含主题特征基因及完成分量间高阶冗余的去除。不需采用大规模已标注样本进行训练,能够有效避免对样本类别关系及特征结构的预定义;克服采用过抽样或欠抽样方法对原始不均衡数据集的类别分布所带来的影响。通过对特征类别结构的修正,改善了CHI统计选择方法的性能;还实现了在保持样本集辨识能力情况下的有效特征降维。
技术领域
本发明属于自然语言处理中的数据解释及主题发现技术领域,具体涉及一种面向不均衡大数据集的无监督文本主题相关基因提取方法。
背景技术
随着社会逐渐步入“大数据”时代,人们通过网页、微博、论坛等途径获取的信息数量越来越多,而用于阅读和整理信息的时间却越来越少,因此,高效、准确地分析信息的主题就成为实现大数据理解与价值发现的有效手段,其适用领域更是涵盖了互联网舆情监测与预警、网络有害信息过滤以及情感分析等多方面。而在处理这些领域数据时,常需要面对大量具有冗余或不相关特征的高维数据,这使得学习算法的效率及性能大大降低,因此特征提取作为机器学习和数据挖掘中至关重要的一环,也直接影响到模型构建及分析效率和准确性。
目前,特征提取根据类别信息的不同,可分为有监督和无监督两类。在文本内容分析过程,无论采取何种类别,均需利用向量空间模型(Vector Space Model)将文本表示成由一定数量特征词构成的向量空间,这在实际应用中不可避免地出现两方面的问题:
①数据集内样本类别(簇)分布不均衡,而作为特征子集质量评价的度量函数,无论是基于独立性的相关性分析、相似性分析;还是基于距离的欧几里得距离、马氏距离;甚至目前应用最为广泛基于信息熵的互信息、信息增益等方法,均采取了对数据集内样本类别(簇)分布相同或相近的一致性假设,使得所确定的特征大多来自类别(簇)数量(密度)占优的“大类”,没有或者很少部分来自不占优的“小类”,导致选取出的最具区分度的特征子集,无法准确反映整个样本空间中真实信息,降低后续学习方法解决实际问题的性能;
②“大数据”使得待处理的对象变得愈加纷繁复杂,数据维数呈现爆炸性增长,面对超高维度的数据集,不仅意味着巨大的内存需求,而且意味着高昂的计算成本投入。这些高维特征空间中,繁多的特征点之间存在着很强的相关性,造成大量冗余甚至噪声的引入,使得采用传统方法选取出的特征项泛化能力急剧恶化,高维数据空间的“空空间”现象,也使得多元密度估计问题变得十分困难。如何从纷繁复杂的表象信息中提取出事物的本质特征,即找出相互独立的、隐藏的潜在信息,完成高阶冗余的去除,提取出完整的、独立的主题相关基因数据,提高特征项的泛化能力就愈显重要。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种面向不均衡大数据集的无监督文本主题相关基因提取方法,有效避免对样本类别关系及特征结构的预定义,及克服采用过抽样或欠抽样方法对原始不均衡数据集的类别分布所带来的影响。
本发明采用以下技术方案:
面向不均衡大数据集的无监督文本主题相关基因提取方法,包括以下步骤:
S1、采用因子分析对无标签样本集中的高维样本进行降维,输出样本集的特征指标矩阵;
S2、对每个由公共因子表述的样本,解析局部密度以及到具有更高局部密度点的距离,绘制决策图,运用快速搜索和密度峰值发现算法对降维后的样本集进行探索性聚类,获得n个样本的C个聚类划分,输出样本集的聚类划分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010255801.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置