[发明专利]一种基于拓扑特征扩展的知识主题短文本层次分类方法有效
申请号: | 201710129359.2 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106991127B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 魏笔凡;吴蓓;刘均;郑庆华;郭朝彤;郑元浩;吴科炜 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 61200 西安通大专利代理有限责任公司 | 代理人: | 李宏德 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拓扑 特征 扩展 知识 主题 文本 层次 分类 方法 | ||
1.一种基于拓扑特征扩展的知识主题短文本层次分类方法,其特征在于,包括以下步骤:
1)初始文本特征构建;
1-1)对短文本进行预处理,构建短文本文件系统;
1-2)以短文本文件系统作为整体,计算其初始熵值;
以词的出现及不出现为条件,计算词在系统中的条件熵;将短文本文件系统的初始熵和条件熵的差值作为信息增益,并以信息增益作为指标对词进行排序,选择大于一定阈值的词作为特征,即特征词,从而构建向量空间模型,得到特征空间;
1-3)将短文本文本内容映射到特征空间,得到用特征词表示的短文本;通过TF-IDF方法计算特征词的权重,从而得到短文本的初始文本特征向量;
2)基于拓扑特征的短文本特征扩展;
2-1)短文本网络的构建;输入某一知识主题下短文本集合以及短文本之间的共现词阈值alpha;统计短文本包含特征词的数量并存放在二维数组中,然后遍历后续短文本并统计文件之间的共现词数量,完成和后续文本比较后,如果数组中任一维度的数值不小于alpha,那么认为该文本和相应文本之间有关联;最后保存根据共现词阈值alpha构建的网络拓扑结构,即以该知识主题下短文本为节点的网络结构;
2-2)短文本网络的修复;将知识主题下网络节点分为两部分:一是孤立节点集合S1,二是非孤立节点集合S2,其中孤立节点与其他节点之间没有大于阈值的共现词特征;
对于S1中的点进行如下操作,分别计算S1中的点与S2中各个节点的语义距离,选择语义距离最短的节点,将S2中与S1中的点的语义距离最短的节点与S1中的点相连,并从S1删除该节点,向S2添加该节点,重复该操作直到S1为空,完成短文本网络的修复;
2-3)短文本网络社区结构的划分;使用Louvain算法进行社区结构的划分:首先通过优化短文本网络的局部模块度来寻找最小社区;聚集属于同一社区的节点,以社区为节点来建立新的网络;迭代执行上述社区结构的划分步骤,直到获得整体最大模块度并产生稳定的社区结构;
2-4)短文本文本特征扩展;对于某一知识主题下的一个待分类的短文本,通过所述步骤1)获取其初始文本特征,然后通过计算语义距离的方法计算其和各个社区的语义距离,最后将每个短文本归属到语义距离最短的社区中,将各个社区的特征作为对应的拓扑特征,从而用拓扑特征扩展文本特征,得到最终基于拓扑特征扩展的文本特征向量;
3)异构知识主题间的迁移学习方法;
3-1)基于KL散度的知识主题距离的度量;
统计同一知识领域下两个不同知识主题特征向量的频率分布情况,即特征词在该知识主题的短文本中出现的概率,并按照其出现的频率将特征空间中的特征进行排序;
对于进行排序后的特征空间中每个特征词,统计其在不同短文本中出现的频率,统计其概率分布,得到特征向量概率分布矩阵;
在两个不同知识主题的特征空间中截取相同的长度,使两特征空间中特征向量的维度一致,特征词一一对应,采用KL散度方法计算两个不同知识主题下特征向量概率分布矩阵的差异性,得到两个不同知识主题的距离;
3-2)基于Multi-TrAdaBoost的知识主题短文本多分类;选择基于KL散度距离能够满足训练数据集数量要求的知识主题短文本数据集作为辅助数据集,结合基于网络拓扑特征扩展后的短文本特征,利用Multi-TrAdaBoost迁移学习方法实现基于实例的迁移学习,并将短文本层次分类问题转换成多分类问题,最终对短文本实现层次分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710129359.2/1.html,转载请声明来源钻瓜专利网。