[发明专利]一种基于多模态超图学习的微博情感预测方法在审
申请号: | 201611128388.9 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106776554A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 纪荣嵘;曹冬林;陈福海 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q50/00 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 超图 学习 情感 预测 方法 | ||
技术领域
本发明属于多模态情感分析领域,尤其是涉及一种基于多模态超图学习的微博情感预测方法。
背景技术
近来,随着新浪微博等大型社交平台的迅速发展,每天社交网络的多媒体数据规模不断增长,以新浪微博为例,截止2014年5月,新浪微博月活跃用户达到1.4亿,相比2013年12月增长了10.9%。作为最受欢迎的平台之一,新浪微博使得互联网用户能够在他们感兴趣的话题下表达他们的情感。因此,它吸引了大量的关于情感信息挖掘的研究,这些研究涉及一些新兴的应用包括事件检测、社交网络分析和商业推荐。
微博发展的一个明显特征在于多模态信息的增长,比如图像、视频、短文本以及丰富的表情符号。主要原因在于越来越多的互联网用户使用越来越多样的设备来发布内容,也因此,发布图片和表情符号成为一种方便的形式,而非平白的文本。然而对于情感分析与预测,目前大多数的研究还是处于单一的文本通道,而非丰富的多模态信息。而根据认知科学的理论,对于情感分析,不同模态之间的差异性是很大的,不能作简单的融合,因此多模态分析是很有必要的。
当前,微博情感分析方法主要利用纯文本通道信息,比如《一种基于大规模语料特征学习的微博情感分析方法(中国专利CN201510310710.9)》、《基于规则和统计模型的中文微博情感分析方法(中国专利CN201510127310.4)》、《一种融合显性和隐性特征的中文微博情感分析方法(中国专利CN201410723617.6)》、《一种中文微博的情感倾向分析方法(中国专利CN201310072472.3)》。然而,由于微博文本具有结构随意,内容较少等特点,单从简单的纯文本通道进行微博情感类别分析难度大,情感预测的准确度低。《一种面向微博短文本的情感分析方法(中国专利CN201210088366.X)》提出一种短文本情感分析方法,但是其面向特定领域和特定主题,不具有普适性。《一种利用表情符号对微博进行情感倾向分类的方法(中国专利CN201310664725.6)》提出基于表情符号词典使用朴素贝叶斯方法构建中性情感分类器和极性情感分类器的方法进行微博情感分类,然而含有表情符号的微博仅占32%,利用表情符号单一通道进行微博情感预测难以适用于所有微博。《一种基于微博群环境的微博多模态情感分析方法(中国专利CN201410006867.8)》提出的多模态情感分析方法还是基于单一文本通道上的微博原文本和评论文本。
现有技术主要针对单一文本通道的微博情感分析,而微博的文本具有微博文本具有结构随意,内容较少等特点,单从简单的纯文本通道进行微博情感类别分析难度大,情感预测的准确度低。
发明内容
本发明的目的是针对在微博多通道内容(多模态)上的情感预测中存在的问题,提供一种基于多模态超图学习的微博情感预测方法。
本发明包括以下步骤:
步骤1提取微博多模态特征(Feature Extraction),具体方法如下:
步骤1.1对于文本模态,首先使用中科院自动分词工具ICTCLAS对微博文本内容进行分词(Text segment),然后利用处理后的中文情感词典(Text word dictionary)对分词后的每条微博文本构建词袋模型(Bag-of-textual-word),作为最后筛选后的文本情感特征,所述中文情感词典由知网HowNet中文情感词典和台湾大学NTUSD中文情感词典组成,并筛选出在微博文本语料中出现的较高频度的2547个情感词,将其组成中文情感词典。第i条微博文本特征表示为Fibotw;
步骤1.2对于视觉模态,首先提取图片底层视觉特征(low-level visual feature),包括局部二值模式特征(LBP)、彩色直方图特征(color histogram)、GIST特征以及PHOW描述子词袋特征,然后使用形容词-动词对(ANP)检测器库SentiBank对提取了底层视觉特征的每张微博图片进行中层特征(mid-level visual feature)的提取,获得1200个形容词-动词对的置信度值,并保留在0.8以上的置信度值,其余置为0,这样最终获得视觉情感特征(Bag-of-visual-word)。第i条微博图像特征表示为Fibovw;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611128388.9/2.html,转载请声明来源钻瓜专利网。