[发明专利]一种基于文本机器学习的舆情走向预测方法在审
申请号: | 201810143913.7 | 申请日: | 2018-02-12 |
公开(公告)号: | CN108363784A | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 张怡;张璐璐;唐成凯;张玲玲;何怡;万志刚 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于文本机器学习的舆情走向预测方法。具体来说,就是对当前互联网上大量的社交媒体消息、新闻内容等信息进行分词、清洗、过滤等处理后,提取某些事件词语,并统计这些事件词语在某段时间出现的频次,根据词语的权重筛选出对应文本中的目标词语以及绘制事件词语频次的变化轨迹,通过目标词语提取网民观点,判断舆论传播路径等,进而利用这些观点数据来训练机器学习模型。最终利用训练好的模型来预测未来一段时间的舆情走向。 | ||
搜索关键词: | 词语 机器学习 目标词语 文本 预测 变化轨迹 传播路径 绘制事件 媒体消息 新闻内容 训练机器 分词 权重 网民 过滤 清洗 筛选 互联网 统计 学习 | ||
【主权项】:
1.一种基于文本机器学习的舆情走向预测方法,其特征在于:包括以下步骤:步骤1:采用中文分词工具对采集的新闻文本进行分词;步骤2:对于通过步骤1得到的每个文本中词语,采用TF‑IDF方法获得每个词语的权值,并将权值较大的m个词语作为文本的核心特征词,核心特征词组成文本的特征向量;步骤3:依据每个文本的特征向量,采用以下过程将描述同类事件的文本聚类:步骤3.1:随机挑选k个文本的特征向量作为初始的聚类中心;步骤3.2:计算其余文本的特征向量到聚类中心的距离,将其余文本的特征向量聚类到距离最近的聚类中心,得到k个聚类;步骤3.3:根据k个聚类中,每个聚类中的文本的特征向量,重新计算k个聚类中心;步骤3.4:重新计算k个文本的特征向量到聚类中心的距离,将k个文本的特征向量聚类到距离最近的聚类中心,再次得到k个聚类,并根据k个聚类中,每个聚类中的文本的特征向量,重新计算k个聚类中心;步骤3.5:判断以下条件是否满足:1)、每个聚类中的文本的特征向量没有变化;2)、每个聚类的中心没有变化;若任一条件得到满足,则进入步骤4,否则返回步骤3.4;步骤4:选择聚类中文本数量达到设定阈值的聚类作为重点事件集;将重点事件集中出现的所有词语以及词语在重点事件集中出现的频数组成重点事件集的特征矩阵
其中M为重点事件集中出现的词语数;hi表示重点事件集中的第i个词语,ni表示第i个词语的频数;步骤5:在重点事件集中挑选频数较高的m个词作为重点事件集的特征向量,通过TF‑IDF方法获得重点事件集的特征向量中每个词的权重,并组成重点事件集的权重向量θ;步骤6:利用互信息法计算重点事件集的特征向量与现有情感词典中基准词之间的关联度R,得到重点事件集特征向量的情感倾向值W=Rθ;给定阈值δ,若W>δ,则重点事件集为正面倾向,否则重点事件集为负面倾向;步骤7:建立并训练分类器,其中训练样本为重点事件集的特征矩阵和重点事件集所在时间段内的情感倾向,将得到的分类器作为预测模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810143913.7/,转载请声明来源钻瓜专利网。