[发明专利]基于文本向量与机器学习的突发事件舆情演化分析方法在审
申请号: | 201811286513.8 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109582785A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 杨宇杰;戴维迪;孙越恒 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本向量与机器学习的突发事件舆情演化分析方法,包括:基于字符串匹配、以及二阶马尔科夫链,对文本文档进行分词处理;利用Word2Vec算法将分词后的短文本内容转化为向量空间中的向量表示,向量空间上的相似度用来表示文本语义的相似性;使用SVM和Word2Vec进行情感分类,SVM分类器的输入值为所有词向量的加权平均值;计算在时间序列上情感正向极性和负向极性的短文本数量,从而得到突发事件发生周期中情感的演化趋势;将时间分片后的数据作为主题模型的输入,进而得到在时间序列上该突发事件主题词的变化及热度。本发明揭示了突发事件的微博舆情主题与情感之间的协同规律,为突发事件的管理部门在舆情判断和风险预测方面提供科学合理的决策依据。 | ||
搜索关键词: | 突发事件 机器学习 时间序列 文本向量 向量空间 短文本 二阶马尔科夫链 字符串匹配 分词处理 风险预测 决策依据 内容转化 情感分类 时间分片 文本文档 文本语义 向量表示 演化趋势 主题模型 词向量 相似度 分词 负向 微博 正向 加权 热度 算法 分析 协同 管理部门 | ||
【主权项】:
1.一种基于文本向量与机器学习的突发事件舆情演化分析方法,其特征在于,所述方法包括以下步骤:基于字符串匹配、以及二阶马尔科夫链,对文本文档进行分词处理;利用Word2Vec算法将分词后的短文本内容转化为向量空间中的向量表示,向量空间上的相似度用来表示文本语义的相似性;使用SVM和Word2Vec进行情感分类,SVM分类器的输入值为所有词向量的加权平均值;计算在时间序列上情感正向极性和负向极性的短文本数量,从而得到突发事件发生周期中情感的演化趋势;将时间分片后的数据作为主题模型的输入,进而得到在时间序列上该突发事件主题词的变化及热度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811286513.8/,转载请声明来源钻瓜专利网。