[发明专利]一种网络热点话题的发现方法和系统在审

专利信息
申请号: 201710933407.3 申请日: 2017-10-09
公开(公告)号: CN107943816A 公开(公告)日: 2018-04-20
发明(设计)人: 安振宇;孙亭;李毅;陈思;叶云;沈自然;沈昌力 申请(专利权)人: 中国电子科技集团公司第二十八研究所
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京中知法苑知识产权代理事务所(普通合伙)11226 代理人: 常玉明
地址: 210007 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 热点话题 发现 方法 系统
【说明书】:

技术领域

发明涉及一种网络热点话题发现方法和系统,采用一种稀疏矩 阵分解和主题模型相结合的方法,属于人工智能领域。

背景技术

网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发 展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的 社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进 行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研 究的热点。传统方法如郭蓝天,李扬,慕德俊等人提出的基于聚类规 则对文本主题词进行相似度的计算和聚类,受限于人工对聚类规则的 制定,对特定文本主题分类效果较好,但难以具有普遍意义。于此同 时,由于网络数据具有长度短、信息量少、高维稀疏等特点,给热点 话题发现任务带来极大的困难。本发明根据网络文本数据特点,提出 利用稀疏非负矩阵分解的方法来解决这一问题。

发明内容

本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热 点话题发现方法。首先对网络文本构建词共现矩阵、稀疏非负矩阵分 解、主题模型发现、热度排序等步骤,最终实现网络热点话题的发现。 主要包括以下几个步骤:

第一步:构建词共现矩阵。对于网络海量文本,在文档规模达到 一定程度时,去除低频词项后的词量基本保持在20000左右,首先计 算这些常用词的词共现矩阵X。

第二步:对词共现矩阵X进行稀疏非负矩阵分解,得到的分解结 果W与其转置即构成了词项-主题矩阵,作为下一步主题建模的输入。

第三步:将上一步得到的词项-主题矩阵,即W作为输入,利用经 典的pLSA(Probability Latent Semantic Analysis)算法得到文 档-主题分布,这样得到每个文档中的话题簇。统计每个话题涉及的 文档数,即可以对话题进行热点排序,得到最热门的若干话题。

本发明的有益结果为,通过引入稀疏非负矩阵分解,满足了海量 网络文本中主题稀疏的特点,也可以对词共现矩阵进行有效分解,得 到词项-主题分布,作为初始化参数输入pLSA算法中,令得到的分解 结果更有效,同时加快计算速度,对网络舆情监测具有重要意义。

附图说明

图1表示本发明所提出的基于稀疏矩阵分解和主题模型相结合的 网络热点话题发现方法流程图。

图2为非负稀疏矩阵分解原理示意图。

图3为pLSA原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描 述的具体实施例仅用以解释本发明,并不用于限定本发明。

现在将详细参考本发明的实施例,这些实施例的示例在附图中示 出。元件的后缀“模块”和“单元”在此用于方便描述,并且因此可 以可交换地被使用,而且没有任何可区别的意义或功能。

虽然构成本发明的实施例的所有元件或单元被描述为结合到单个 元件中或被操作为单个元件或单元,但是本发明不一定局限于此种实 施例。根据实施例,在本发明的目的和范围内所有的元件可以选择性 地结合到一个或多个元件并且被操作为一个或多个元件。

下面结合附图对本发明的具体实施方式进行详细阐述。图1为本 发明提出的基于稀疏矩阵分解和主题模型相结合的主题发现方法示 意图,主要分为词共现矩阵X构建、稀疏矩阵分解、概率潜在语义分 析三个步骤。

1)构建词共现矩阵。

对于网络海量文本,在文档规模达到一定程度时,去除低频词项, 首先计算这些常用词的词-词共现矩阵X。

在一个实施例中,文档达到的规模优先选择40000篇以上,去除 低频词项后的词量基本保持在20000左右。

所谓低频词项,是指出现频率相对较低的词。比如,对于一个含 有1000个单词的集合,如果某个词A出现100次,则频率为0.1, 如果某个词仅出现1次,则频率为0.001,低频词项就是频率小于一 定程度的单词。低频词项的词频值的设置与系统输入的文档量有关, 不宜设置为固定值。在本发明实施例中,优选词频低于0.01的词汇 为低频词汇。

第一步,得到词项ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示词ti与tm之 间的互信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710933407.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top