[发明专利]基于网络离散文本的舆情信息分析方法无效
申请号: | 201110030156.0 | 申请日: | 2011-01-26 |
公开(公告)号: | CN102110140A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 赵峰;李生红;陈秀真;李海燕;黄慧琼 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 巢雄辉 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 离散 文本 舆情 信息 分析 方法 | ||
1.基于网络离散文本的舆情信息分析方法,包括离散文本信息采集、离散文本信息处理,以及相应的数据库,其特征在于:包括如下步骤:
a.离散文本信息采集模块首先按设定的分析周期对网络信息进行采集,保存到本地数据库;
b.接下来,离散文本信息追踪与复原模块对原内容省略之处和远程指代之处复原;
c.在步骤b基础上,语义信息挖掘与特征提取模块利用潜在语义索引技术对文本信息进行语义挖掘和特征提取;
d.由步骤c得到的数据进入舆情信息聚类模块,通过小生境遗传算法和K-Means方法相结合进行信息的聚类;同时,由后台信息处理和数据支持中心的数据指导类别信息对网络信息进行话题和事件聚类;
e.最后由热点舆情事件发现模块对聚类得到的话题和事件进行热点舆情挖掘,得到最终的处理结果,交至系统管理员。
2.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤a,先从网络获取信息流,以HTML格式保存到本地数据库,然后对本地保存的HTML格式的信息进行去噪处理,同时,去噪过程中建立文档索引,保存UserID信息和参与讨论的时间、人数。
3.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤b,首先根据后台信息处理和数据支持中心提供的网络专用用语库用最大匹配原则在离散文本中确定出内容省略、远程指代之处,在此基础上根据离散文本信息采集模块中形成的html树的层次结构或者访问远程超链接实现对省略的原内容、远程指代的原内容的有效定位,最后对内容省略之处和远程指代之处利用所定位出的原内容进行内容替换;同时,去除离散文本中的特殊符号。
4.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤c,对复原后的离散文本即舆情文档,用中科院ICTCLAS分词系统进行分词,用TF-IDF进行权重计算,得到词语-文档矩阵,然后采用潜在语义索引技术对词语-文档矩阵进行降维处理,找出词与概念、概念与舆情文档的关系,并基于此进行特征提取,得到用于下一步骤进行信息聚类用的维数被降低的概念-舆情文档矩阵。
5.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤d中,小生境遗传算法是将种群分为若干个小生境,每个小生境内部根据文档的平均类内相似度对遗传选择产生影响,进而影响小生境内的个体适应值,交叉和变异操作则在整个种群中进行;在每次进化迭代中用K-Means进行聚类,以计算个体适应值和类内平均相似度,初始种群中的K-Means聚类初始中心随机选择,以后每一次进化后选择适应值大的K个体作为初始中心,用K-Means的方法将具有相同主题信息或者话题类别的舆情信息聚到同一类。
6.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,在步骤e,由聚类模块得到的聚类结果和离散文本去噪过程中保存的文档索引信息,依据聚类结果中每类的舆情信息文档数和文档索引中的讨论人数挖掘在一定时间内热点舆情事件,并将每次定期更新采集HTML页面后发现的热点舆情事件与后台信息处理和数据支持中心提供的已有热点进行比较分析,结果交至系统管理员。
7.根据权利要求1所述的基于网络离散文本的舆情信息分析方法,其特征是,后台信息处理和数据支持中心
8.根据权利要求2所述的基于网络离散文本的舆情信息分析方法,其特征是,去噪处理的具体步骤是:先将HTML文件中的数据统一规范化,把出现元素交叉的标记配对还原成完整格式;接着将HTML网页用树形的链式结构存储,处理后每个html网页对应一棵html树;最后根据上述生成的html树将表格元素中的文本合并,取信息量最大的一个表格中的文本作为主体文本,由此提取到相应的文本信息,包括标题、正文和回帖等内容,得到离散文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110030156.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能太阳能畜舍单元模块
- 下一篇:食用菌袋装机绞龙头装置