[发明专利]论坛网民兴趣分析方法无效
| 申请号: | 200810035601.0 | 申请日: | 2008-04-03 |
| 公开(公告)号: | CN101551797A | 公开(公告)日: | 2009-10-07 |
| 发明(设计)人: | 张世永;吴承荣;谢剑锋 | 申请(专利权)人: | 上海复旦光华信息科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200433上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 论坛 网民 兴趣 分析 方法 | ||
技术领域
本发明是一种网络虚拟环境的分析技术,具体涉及一种论坛网民兴趣分析方法,属于数据挖掘技术领域。
背景技术
随着网络信息化的发展,出现了大量的网络虚拟社区,形成了一个网络虚拟环境,网络论坛就是其中的一种主要形式。在传统的社会化经中,长期已经具有一套行之有效的人和群的管理体系,但是网络虚拟环境这是一个新生事物,它不仅仅具有网上自由发言的特点,还具有网民匿名性的特点,加大了监管的难度。目前,网络舆情已经成为一个不可忽视的方面,而网络论坛更能体现出网络聚众的特点,和其它网络应用相比,更能反映网络舆情态势。因此,对于网站论坛中舆情的主要推动力量——网民的分析具有重大意义。通过对论坛中网民兴趣的分析,可以准确掌控某一时间段内网络舆情态势发展的主要趋向。
虽然对基于论坛的网民兴趣分析具有较好的发展前景和应用前途,也出现了一些相关的系统和方法,但是,目前在该领域的系统和方法仍然存在着一系列的问题,主要有几下几种:
1.单纯的网民和发表文章的关联分析,缺乏对网民参与议题、热点话题、内容类别的时间跨度上的系统分析,使得对个体网民的分析缺乏立体感。
2.网民在网络上的活动往往带有团体的性质,目前的系统和方法往往忽略了这一点。网络舆情基本上都是在网络团体的带动下而形成的,个体的网民很难形成一股力量,因此,需要对网络人群进行深入的分析。
由此可见,网络论坛中网民兴趣的分析是非常重要的,对网民兴趣的分析在数据挖据上有着深度的要求,而现有的系统和方法在网民和内容关联、网民之间关联都存在着缺陷,还无法满足网民兴趣分析的深层次要求。
发明内容
本发明的目的主要是针对现有基于论坛的网络虚拟环境网民兴趣分析的系统和方法中存在的缺陷,提出一种以网民和内容关关联、网民之间关联为技术基础实现的基于数据挖掘的论坛网民兴趣分析系统和方法,它主要通过网民和热点话题、议题、内容分类、倾向性分析,网民和网民之间关系分析,实现论坛网民兴趣的深层次分析。
本发明所述的以网民和内容关关联、网民之间关联为技术基础实现的基于数据挖掘的论坛网民兴趣分析方法包括如下步骤:
将结构化数据和非结构化数据导入到数据存储系统;
采用数据挖掘方法对所述非结构化数据进行内容分析;
将所述内容分析的结果与网民相关联。
所述将结构化数据和非结构化数据导入到数据存储系统的步骤,负责存放结构化数据和非结构化数据,数据的入库和索引都是在该步骤完成。对于结构化数据,如网民ID、时间等,将其存放于通用的商业数据库中,这里采用的是oracle;而对于非结构化数据,主要是文本内容,如果存放在通用的商业数据库中,随着数据量的增加,索引性能将会急剧降低,因此,我们将其置于自主开发的专用的非结构化数据存储库内。每篇文章的结构化数据和非结构化数据因为存于不同的数据库内,而且类型不一样,因此需要将数据统一关联起来,我们采用结构化数据在通用商业数据库内的唯一标志ID作为关联的依据。
所述采用数据挖掘方法对所述非结构化数据进行内容分析的步骤,针对非结构化数据,采用数据挖掘的方法,主要包括文本分类、文本聚类、文本摘要等,进行智能化文本内容分析,实现了主题分类、热点话题提取和跟踪、倾向性分析等功能。
所述文本分类是采用人工和自动化相结合的方式,对既设主题进行类别的识别。分类的方法有很多种,我们采用了SUPPORT VECTOR MACHINE(支持向量机)的方法,该方法建立在对词的统计基础之上。其工作流程主要如下:第一步,人工提取一部分文章作为训练集;第二步,对特征集进行中文分词,过滤停用词,提取特征词,并将特征集内的每篇文章转化为特征词向量表示;第三步,调用分类训练器,对特征集向量进行训练,得到分类器;第四步,输入待分类文本内容,根据训练集特征词提取特征,形成特征向量,利用分类器对其进行分类。
所述热点话题提取和跟踪采用文本聚类和分类相结合的方式,具体做法上是对热点话题的提取采用文本聚类的方法,而对热点话题的跟踪采用文本分类的方法,其工作流程如下:第一步,对指定时间段内的文本数据进行中文分词、特征提取,形成向量;第二步,对形成的向量进行自动化聚类,聚类的算法有很多,我们采用的是基于层次的聚类算法;第三步,将聚类出的类别作为新的热点话题;如果需要跟踪该话题,将新热点话题内的文章作为文本分类的训练集,对其进行训练,得到分类器;第四步,利用得到的分类器,对新输入的文章进行分类,将其归入某个热点话题,从而实现了对热点话题的跟踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海复旦光华信息科技股份有限公司,未经上海复旦光华信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810035601.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网络设备管理方法
- 下一篇:一种智能终端系统升级方法和装置





