[发明专利]一种基于情感极性感知算法的跨媒体微博舆情分析方法在审
申请号: | 201611128106.5 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106777040A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 纪荣嵘;曹冬林;陈超 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 极性 感知 算法 媒体 舆情 分析 方法 | ||
技术领域
本发明涉及文本情感分析,尤其是涉及一种基于情感极性感知算法的跨媒体微博舆情分析方法。
背景技术
现有的舆情情感分析算法,主要是利用文本特征进行情感分类,在社交媒体这种多媒体环境中,有时候文本信息是缺失的,这时候这些传统的算法就会失效,同理,仅仅利用图像的信息的话,图像信息缺失的情况下,算法也会失效;
文本情感分析有两大主流方法,一种是基于字典的方法,另一种是基于机器学习的方法。其中基于字典的方法,由Turney(Turney P.Thumbs up or thumbs down:Semantic orientation applied to unsupervised classification of reviews.Proc.of the ACL.Morristown:ACL,2002,417-424)提出,主要手段是文本中首先提取情感相关的词组,然后据此计算整段文本的特征,从而得出情感分析结果。另一种是基于机器学习的方法,利用文本中提取到的特征,输入到朴素贝叶斯分类器、支持向量机等算法中进行训练和分类。(B.Pang,L.Lee el al.Thumbs up:sentiment classification using machine learning techniques.In Proc.of the ACL-02conference on Empirical methods in natural language processing-Volume 10,2002,79-86.)
关于图像情感分析,现有的算法数量要比文本情感分析算法少的多。D Borth et al.提出了一种运用ANP(形容词名词对)中层特征的情感分析方法。具体手段为对于输入图像,用若干个ANP检测子对其进行分析,输出对应ANP维数的中层特征,利用这些中层特征进行情感分类。
现有的情感分析技术都是针对文本或图像单一通道的,在实际运用场景中,若图像/文本信息有缺失,这些算法都会失效;同时,现有技术仅仅停留在算法研究阶段,没有对分析结果进行面向应用的组织。
发明内容
本发明的目的在于提供一种基于情感极性感知算法的跨媒体微博舆情分析方法。
本发明包括以下步骤:
1)利用机器人爬虫自动抓取微博上的热门话题下的信息;
2)对抓取到的信息进行预处理,过滤掉不相关的内容,并以规定的格式存储到数据库待分析;
3)对于文本信息,利用已有情感倾向性标注的训练数据训练一个bag-of-words深度网络模型,并以该模型对输入的文本信息进行倾向性预测;
4)对于图像信息,利用已有情感倾向性标注的训练数据训练一个bag-of-image-words深度网络模型,并以该模型对输入的图像信息进行倾向性预测;
5)综合步骤3)与4)中倾向性分析结果,给出最终结果,并以地理、话题、用户、时间等多维度的方式可视化展示,对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
在步骤1)中,所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名等有价值的数据。
本发明具有以下优点:
本发明全面综合了图像与文本的信息,互相补充,互相印证,同时在应用层面,以地理、时间、微博、话题等组织形式对算法分析结果做出了统计学分析,相较于单纯的算法,更有现实意义;同时引入深度网络算法,相较于传统方法,大大提升了算法的准确率。
传统的方法一般只关注文本信息,则情感分析问题可描述为:
yt=ft(T)
其中
T={w1,...,wj,...,wm},代表文本信息,wm代表第m个词,yt代表情感极性的分析结果,ft代表分析函数。
而本发明中,结合了文本与图像的跨媒体信息,则问题可描述为:
y=λft(T)+(1-λ)fp(I)
T和I分别代表文本和图像信息。用文本和图像分析结果的加权和代表最终情感倾向性分析结果,λ代表一个权重系数,用来平衡文本和图像信息的权重。
用bag-of-words的方法来表示一条文本信息为x:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611128106.5/2.html,转载请声明来源钻瓜专利网。