[发明专利]一种网络热点话题的发现方法和系统在审
申请号: | 201710933407.3 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107943816A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 安振宇;孙亭;李毅;陈思;叶云;沈自然;沈昌力 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中知法苑知识产权代理事务所(普通合伙)11226 | 代理人: | 常玉明 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 热点话题 发现 方法 系统 | ||
技术领域
本发明涉及一种网络热点话题发现方法和系统,采用一种稀疏矩 阵分解和主题模型相结合的方法,属于人工智能领域。
背景技术
网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发 展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的 社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进 行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研 究的热点。传统方法如郭蓝天,李扬,慕德俊等人提出的基于聚类规 则对文本主题词进行相似度的计算和聚类,受限于人工对聚类规则的 制定,对特定文本主题分类效果较好,但难以具有普遍意义。于此同 时,由于网络数据具有长度短、信息量少、高维稀疏等特点,给热点 话题发现任务带来极大的困难。本发明根据网络文本数据特点,提出 利用稀疏非负矩阵分解的方法来解决这一问题。
发明内容
本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热 点话题发现方法。首先对网络文本构建词共现矩阵、稀疏非负矩阵分 解、主题模型发现、热度排序等步骤,最终实现网络热点话题的发现。 主要包括以下几个步骤:
第一步:构建词共现矩阵。对于网络海量文本,在文档规模达到 一定程度时,去除低频词项后的词量基本保持在20000左右,首先计 算这些常用词的词共现矩阵X。
第二步:对词共现矩阵X进行稀疏非负矩阵分解,得到的分解结 果W与其转置即构成了词项-主题矩阵,作为下一步主题建模的输入。
第三步:将上一步得到的词项-主题矩阵,即W作为输入,利用经 典的pLSA(Probability Latent Semantic Analysis)算法得到文 档-主题分布,这样得到每个文档中的话题簇。统计每个话题涉及的 文档数,即可以对话题进行热点排序,得到最热门的若干话题。
本发明的有益结果为,通过引入稀疏非负矩阵分解,满足了海量 网络文本中主题稀疏的特点,也可以对词共现矩阵进行有效分解,得 到词项-主题分布,作为初始化参数输入pLSA算法中,令得到的分解 结果更有效,同时加快计算速度,对网络舆情监测具有重要意义。
附图说明
图1表示本发明所提出的基于稀疏矩阵分解和主题模型相结合的 网络热点话题发现方法流程图。
图2为非负稀疏矩阵分解原理示意图。
图3为pLSA原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描 述的具体实施例仅用以解释本发明,并不用于限定本发明。
现在将详细参考本发明的实施例,这些实施例的示例在附图中示 出。元件的后缀“模块”和“单元”在此用于方便描述,并且因此可 以可交换地被使用,而且没有任何可区别的意义或功能。
虽然构成本发明的实施例的所有元件或单元被描述为结合到单个 元件中或被操作为单个元件或单元,但是本发明不一定局限于此种实 施例。根据实施例,在本发明的目的和范围内所有的元件可以选择性 地结合到一个或多个元件并且被操作为一个或多个元件。
下面结合附图对本发明的具体实施方式进行详细阐述。图1为本 发明提出的基于稀疏矩阵分解和主题模型相结合的主题发现方法示 意图,主要分为词共现矩阵X构建、稀疏矩阵分解、概率潜在语义分 析三个步骤。
1)构建词共现矩阵。
对于网络海量文本,在文档规模达到一定程度时,去除低频词项, 首先计算这些常用词的词-词共现矩阵X。
在一个实施例中,文档达到的规模优先选择40000篇以上,去除 低频词项后的词量基本保持在20000左右。
所谓低频词项,是指出现频率相对较低的词。比如,对于一个含 有1000个单词的集合,如果某个词A出现100次,则频率为0.1, 如果某个词仅出现1次,则频率为0.001,低频词项就是频率小于一 定程度的单词。低频词项的词频值的设置与系统输入的文档量有关, 不宜设置为固定值。在本发明实施例中,优选词频低于0.01的词汇 为低频词汇。
第一步,得到词项ti的分布(Wi,1,Wi,2,...,Wi,m),其中Wi,m表示词ti与tm之 间的互信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710933407.3/2.html,转载请声明来源钻瓜专利网。