[发明专利]基于网络离散文本的舆情信息分析方法无效
申请号: | 201110030156.0 | 申请日: | 2011-01-26 |
公开(公告)号: | CN102110140A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 赵峰;李生红;陈秀真;李海燕;黄慧琼 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 巢雄辉 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 离散 文本 舆情 信息 分析 方法 | ||
技术领域
本发明涉及网络信息分析,具体是一种基于网络离散文本的舆情信息分析方法。
背景技术
随着互联网技术的发展和人们生活水平的提高,网络已经成为人们获取信息和日常交流的最重要的平台。根据CNNIC发布的《第26次中国互联网络发展状况统计报告》,中国网民规模达到4.2亿人,并且上半年新增网民中,62%是手机网民。这些数据透视了中国互联网络的现有规模和前景,同时也表明了人们交流的方式已从传统方式演变到计算机网络和手机移动网。互联网上的言论是网民们实时观点的反应,对社会舆论及其走向会产生巨大影响,严重的还会因此引发社会事件,而这些言论形成的信息文档不具备传统文档的完整篇章结构,内容省略和远程指代较多,并且包含较多的网络新词,因此有必要对此进行研究,开发出相应的舆情信息分析系统。中国专利CN200810147645.2(专利名称为:一种网络舆情观点收集方法)是计算热点词词频和词频变化的方法,以关键句中的动词和名词作为特征值,通过计算各关键句特征向量间的余弦相似度对关键句进行聚类,得到多个观点主题句集,最后采用带权重的情感词库和手工判别相结合的方法来计算各个观点主题句的情感倾向。这种方法用统计的方法以词为单位进行热点词提取和关键句聚类,在处理具有完整篇章结构的文本信息是可行的。但经我们研究发现,在当今网络环境下,舆情文本信息的篇章结构已经发生了变化,特别是随着手机用户的剧增和网路技术的发展,诸如微博这样的交流平台应运而生,通过手机参与话题讨论的信息增多。这些舆情信息不再是具有一定篇幅、组织结构较为完善的完整篇章结构,网络舆情信息的处理对象是话语简短、省略语较多、结构非完整的离散文本格式的信息,其中的省略用语和远程指代都是需要处理的问题。同时,在现今网络交流平台中,新生词和具有特殊意义的网络用语对网民舆情观点的反应更具有重要的意义,仅以统计的方法并不能得出这些词的语义信息,因此话题和事件聚类的准确率将受影响。此外,互联网上除了众多主题文档外,对这些主题文档的评论文档也包含了网民的观点,也是网络舆情倾向的重要组成部分。
发明内容
本发明针对上述提出的现有网络舆情信息的特点,提出一种基于网络离散文本的舆情信息分析方法,通过对采集到的网络信息进行离散文本的追踪与复原,实现对网络文本信息流的内容省略和远程指代的有效重建。在此基础上采用潜在语义索引技术实现语义信息挖掘和特征选择。最后对舆情信息进行分析。
本发明是通过以下技术方案实现的,基于网络离散文本的舆情信息分析方法,包括离散文本信息采集、离散文本信息处理,以及相应的数据库,包括如下步骤:
a.离散文本信息采集模块首先按设定的分析周期对网络信息进行采集,保存到本地数据库;
b.接下来,离散文本信息追踪与复原模块对原内容省略之处和远程指代之处复原;
c.在步骤b基础上,语义信息挖掘与特征提取模块利用潜在语义索引技术对文本信息进行语义挖掘和特征提取;
d.由步骤c得到的数据进入舆情信息聚类模块,通过小生境遗传算法和K-Means方法相结合进行信息的聚类;同时,由后台信息处理和数据支持中心的数据指导类别信息对网络信息进行话题和事件聚类;
e.最后由热点舆情事件发现模块对聚类得到的话题和事件进行热点舆情挖掘,得到最终的处理结果,交至系统管理员,以根据需要进行后续的处理工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110030156.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能太阳能畜舍单元模块
- 下一篇:食用菌袋装机绞龙头装置