[发明专利]面向专业领域的在线主题检测方法有效

专利信息
申请号: 201710186405.2 申请日: 2017-03-26
公开(公告)号: CN107066555B 公开(公告)日: 2020-03-17
发明(设计)人: 喻梅;原旭莹;于健;高洁;王建荣;辛伟 申请(专利权)人: 天津大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李素兰
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 专业 领域 在线 主题 检测 方法
【说明书】:

发明公开了一种面向专业领域的在线主题检测方法,得到预处理的文本集的文本向量矩阵,并从文本集中提取词典;对文本向量矩阵进行建模;计算文本d对主题θk的混合权重p(θk|d)和每个主题主题θk中特征词出现的频率p(ω|θk);得到两文本di,dj之间相似度,文本间基于主题模型的主题距离定义为文本向量的相对熵距离,计算相似度矩阵;压缩文本集,得到新文本样本集;计算新文本样本集的相似度矩阵,并根据此相似度矩阵选择偏向参数p;对上述聚类结果合并处理,产生新的聚类结果;计算原文本集中所有文本与压缩后已经分类出的文本的距离,进行分类;输出文本集主题以及最终聚类结果。与现有技术相比,本发明于采用更优化的聚类算法,提高了聚类结果准确率和效率。

技术领域

本发明属于数据挖掘、自然语言处理、信息抽取和信息检索技术领域,特别是涉及一种主题检测和跟踪技术。

背景技术

目前在主题检测的相关技术中,常用的聚类算法主要有K均值聚类算法(K-means)和仿射传播聚类算法(AP算法)。K均值聚类算法(K-means)是最流行、最典型的基于距离的划分聚类算法。K-means算法采用距离作为相似性的评价指标,认为簇是由彼此相似的一组对象所构成的集合,因此把得到紧凑且独立的簇作为最终目标。K-means算法以随机选择的点作为初始中心点,然后根据其他点到中心点的距离,把集合中的点划分到相应类别中,直到划分达到收敛条件:划分结果的方差下降的速度很小或者迭代过程中没有重新划分的点出现。

K-means算法的缺点是对初始点的选择敏感,如果初始点选择的不恰当,迭代会收敛到一个局部最优划分。因此,实际应用中,一般会多次运行,选择运行结果中最好的一次作为最终结果。

另一类算法是仿射传播聚类算法,AP算法是基于图的消息传递算法,每个对象可以看作是图上的一个点,它们之间进行消息传递。算法输入为N个对象之间的相似度矩阵,这个矩阵可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个对象互相之间的相似度不等。AP算法通过相似度信息在样本间的迭代传递,最终得到一组最优的模板点,其他点根据自身与模板点的相似关系来聚类。

AP算法的缺点在于因AP算法在计算数据时需要占用两次CPU时间,且算法复杂度较高,因此当数据集规模比较大(N>3000)时,AP聚类算法往往需要计算很久。近几年来,随着网页规模的大幅度增加,AP聚类算法已无法满足大规模数据集文本的聚类。

发明内容

基于现有技术,本发明提出了一种面向专业领域的在线主题检测方法,利用更优化的聚类算法,实现面向专业领域大规模文本集的文本主题的在线检测方法。

本发明提出了一种面向专业领域的在线主题检测方法,该方法包括以下步骤:

步骤一、对文本集进行包括文本分词、过滤停用词、计算TF/IDF值、文本特征向量化、标准化在内的预处理操作,得到文本集的文本向量矩阵A,A=(Wtw,d),其中Wtw,d表示单词w在文本d中的权重,并在文本切分词的时候从文本集中提取词典(文本集中出现过的所有词的有序集合);

步骤二、通过LDA主题模型对文本向量矩阵进行建模,建模的数学表示如下::

文本集是M个文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;

文本是K个主题的集合,可以表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n个主题;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710186405.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top