[发明专利]一种互联网舆情分析方法及系统有效
申请号: | 201610047697.7 | 申请日: | 2016-01-25 |
公开(公告)号: | CN105740228B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 康雁;柳青;林英;杨晓东;孙金文;张一凡;普佳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/951 |
代理公司: | 西安知诚思迈知识产权代理事务所(普通合伙) 61237 | 代理人: | 麦春明 |
地址: | 650091 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种互联网舆情分析方法,所述互联网舆情分析方法包括:首先针对选定获取事件,微博源文本进行划分,去除与情绪无关的划分项;然后采用统计分析工具进行统计,得到情绪分类模型的一个输入;最后针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模,给出综合情感指数评价,得到情绪分类,并进行舆情监控及情绪走势分析。本发明对微博中词语、表情和符号等进行情绪建模,通过情绪指数计算,可对微博中热点事件的反应情势进行自动分类和有效监控,从而可有效地进行舆情风险评估,对过激事件进行防控。 | ||
搜索关键词: | 一种 互联网 舆情 分析 方法 | ||
【主权项】:
1.一种互联网舆情分析方法,其特征在于,所述互联网舆情分析方法对微博中的表情和符号进行识别,给出表情和符号的情绪权值,利用权重因子将其和词语统一建模,最终给出综合考虑词语、表情和符号的从属权值、情绪权值、出现频数的情绪计算模型;并将网络大环境下普遍情绪对特定事件的影响和意见领袖在特定事件的情绪引领与传播这两点要素纳入模型,得到舆情情绪指数;具体包括:首先对选定事件进行获取,微博源文本进行划分,去除与情绪无关的划分项;然后采用统计分析工具进行统计,得到情绪计算模型的一个输入;最后针对输入用分类算法给出舆情情绪指数评价,得到情绪分类,并进行舆情监控及情绪走势分析;对微博内容首先进行机械分词,按照匹配策略将待分析的汉字串与现有机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功;采用串匹配策略为双向最大匹配法;针对微博中新词出现频率快的问题,采用基于统计的方法进行新词发现,借助统计可能的词语出现的频率,结合概率的知识进行筛选过滤,寻找出可能的新词语;所述互联网舆情分析方法具体包括以下步骤:步骤一,对选定事件进行获取;利用统计学对舆情的持续时间内的微博内容进行分词,并对微博源文本进行划分,去除与情绪无关的划分项,并对有用项进行统计,得到情绪计算模型的输入;步骤二,对微博内容进行情绪语义计算,统计能表现情绪的关键词、表情和符号出现的频率,然后计算关键词情绪指数L0、表情情绪指数L1和符号情绪指数L2,最终结合L0、L1、L2,综合计算关注特定事件的人员的真实情绪β:
步骤三,采用对词语、表情、符号进行情感趋势分析的方式,结合若干重要的舆情趋势影响因素,得到情绪计算模型及舆情情绪指数:E=p*α+(1‑p)*β;其中,α是特定事件的关注程度,α=λ0*num,λ0为常数,num为关注特定事件的微博数量;p为概率权值;E为情绪波及影响指数即舆情情绪指数;步骤四,基于舆情情绪指数进行分类算法计算,得到正面和负面情绪的分类,采用统计工具和R语言,分析舆情持续时间内的情绪走势,给出舆情分析;在舆情持续时间内利用多种分类方法及验证方法进行验证;所述对选定事件进行获取利用新浪微博开放平台API调用、以及开源微博库获取微博信息;所述对选定事件进行获取信息后预处理:利用已有开源词库进行第一次文本词语处理,在文本分词后对与微博舆情情绪有关的词进行处理;对微博内容中能够表达情绪的符号的出现次数及连续出现的模式进行统计;表情采用正则表达式进行匹配;然后利用二次分词建立更为完善的用户词库,采用基于频率的搜索方法解决固定短语的识别问题;对用户词库的完善规则定义如下:1)、将相邻且出现频率相近的单字划分为新的未登录词;2)、未登录词不包含虚词;3)、去除“!”以外的分词标点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610047697.7/,转载请声明来源钻瓜专利网。