[发明专利]一种基于文本分类和聚类分析的网络热点事件发现方法有效
申请号: | 201410432539.4 | 申请日: | 2014-08-27 |
公开(公告)号: | CN104239436B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 成卫青;范恒亮;卢艳红 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 汪旭东 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本分类和聚类分析的网络热点事件发现方法,该方法解决了已有的基于聚类分析的热点事件发现方法存在的效率和准确率有待进一步提高的问题。该方法首先利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词,再采用向量空间模型法将每个训练文本和测试文本表示为在所有特征空间中的向量,并采用TF‑IDF方法确定向量中每一维的权重,然后对各个测试文本进行分类,再对分好类的各个类别的测试文本分别进行聚类分析,得到各个类别的热点簇,再分析得到代表热点事件的特征词,进而分析热点各个特征词的词性等,再利用相关语言知识,通过必要的语言组织生成热点事件的描述。本发明能有效提高热点事件发现的效率和准确率。 | ||
搜索关键词: | 一种 基于 文本 分类 聚类分析 网络 热点 事件 发现 方法 | ||
【主权项】:
一种基于文本分类和聚类分析的网络热点事件发现方法,其特征在于,所述方法是利用训练语料库通过特征词提取和特征选择为各类别文本分别选取特征词;所述方法采用向量空间模型法将每一篇训练文本、测试文本表示为在所有特征空间中的向量,并采用TF‑IDF的方法确定向量中每一维的权重;所述方法是利用KNN分类方法对测试集中的文本进行分类;所述方法是利用文本分类结果,分别对各个类别的所有文本进行聚类分析,之后再进行相关统计,进而发现热点事件,包括如下步骤:步骤1:利用KNN分类方法对测试文本进行分类,包括:步骤1‑1:构建训练语料库和测试语料库,利用训练语料库提取特征词并进行特征选择;步骤1‑2:扫描并统计每一篇训练文本、测试文本在所有特征空间中的向量,采用TF‑IDF的方法确定向量中每一维的权重;步骤1‑3:对测试集中的每个测试文本X,按余弦距离法在训练集中找到它的K‑最近邻子集{X1,…,Xk};步骤1‑4:基于测试文本X与其k个近邻的余弦相似度以及k个近邻的类别,计算测试文本X属于每一个类别的权重:其中,μj(Xi)∈{0,1}含义为测试文本的近邻文本Xi是否属于Cj;sim(X,Xi)表示测试文本与训练文本Xi的余弦相似度;决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别,最终得到所有测试文本的分类结果,为下面的聚类分析和热点事件发现做好准备;步骤2:根据分类结果,利用聚类方法分别对各个类别的测试文本进行热点事件发现;热点分析子系统包括聚类、热点特征词提取、热点事件分析等模块,包括:步骤2‑1:聚类;根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇;对文本预处理子系统中提供的文本向量,利用K‑means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:第一步:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;第二步:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;第三步:重复上述第二步,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了k个热点簇C1,C2,…,Ck;对测试集中每个类别分别得到若干热点簇;步骤2‑2:热点特征词提取;根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重前80%大的特征词提取出来,作为该热点的代表性特征;步骤2‑3:热点事件分析;利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述;权值排序倒数20%的特征词也有价值,从侧面为热点提供附加信息;所述方法基于传统KNN方法的文本分类过程,包括如下步骤:(1)文本的预处理,主要包括分词、去除停用词;(2)特征选择,即从经预处理得到的数量仍然较大的特征词中进行筛选,选取对分类较重要的特征词,其方法有:互信息、交叉熵、信息增益、χ2统计方法、文本证据权;(3)扫描并统计每一篇训练文本在所有特征空间中的向量,采用TF‑IDF的方法确定向量中每一维的权重;(4)对于一篇待分类的文本,也称测试文本,提取特征词并计算文本向量的各维权重,之后计算该文本与每一篇训练文本的相似度,一般采用余弦距离的方法:其中wik为文本向量di的第k维属性权重,m是文本特征向量的维度;(5)将所有文本相似度按降序排列,选出与测试文本最相邻的k个训练文本;(6)基于测试文本与其k个近邻的相似度,以及k个近邻的类别,计算测试文本属于每一个类别的权重:其中,μj(Xi)∈{0,1}含义为文本Xi是否属于类别Cj;sim(X,Xi)表示测试文本X与训练文本Xi的相似度,决策方法为:如果μl(X)=maxμj(X),则决策X∈Cl,即类别权重最大的作为测试文本的所属类别;根据分类结果,利用聚类方法分别对各个类别进行热点事件发现,所述聚类采用的是K‑means聚类方法,热点分析子系统包括聚类模块,热点特征词提取模块,热点事件分析模块;(1)聚类模块:根据文本分类的结果,分别对测试语料库中各个类别的所有文本进行聚类处理,进而发现网络热点簇,对文本预处理子系统中提供的文本向量,利用K‑means聚类模块进行相关的运算,得到聚类的结果,从而发现与热点相关的簇和属于该簇的文本集合,对每个类别的所有测试文本的聚类分析包括如下步骤:步骤1:首选随机选出k个文本对象,每个被选择的文本对象表示一个簇的初始中心;步骤2:计算该类别中的每个文本对象Xj与各个簇中心的距离,并把Xj划分到离它最近的聚类中心所在的簇中,之后利用各簇中所有文本对象的文本特征向量的均值更新簇中心;步骤3:重复上述步骤2,直到该类别所有测试文本对象Xj的簇不再变化为止,这样就得到了平均误差最小的k个热点簇C1,C2,…,Ck,对测试集中每个类别分别得到若干热点簇;(2)热点特征词提取模块:根据聚类模块计算出的各个簇中心,对每个簇中心而言,把簇中心的特征向量中权重较大的80%的特征词提取出来,作为该热点的代表性特征;(3)热点事件分析模块:利用各个特征词的词性和相关的语言知识,对由提取模块得到的各个热点事件的特征词进行必要的语言组织,从而形成热点事件的完整描述,权值排序倒数20%的特征词也有一定的价值,虽然这些特征的权重较小,但是也从侧面为热点提供附加信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410432539.4/,转载请声明来源钻瓜专利网。
- 上一篇:摄像元件以及摄像装置
- 下一篇:用磁性纳米粒子修饰的纤维素纳米纤丝