[发明专利]一种基于多模态超图学习的微博情感预测方法在审

专利信息
申请号: 201611128388.9 申请日: 2016-12-09
公开(公告)号: CN106776554A 公开(公告)日: 2017-05-31
发明(设计)人: 纪荣嵘;曹冬林;陈福海 申请(专利权)人: 厦门大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06Q50/00
代理公司: 厦门南强之路专利事务所(普通合伙)35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多模态 超图 学习 情感 预测 方法
【权利要求书】:

1.一种基于多模态超图学习的微博情感预测方法,其特征在于包括以下步骤:

1)提取微博多模态特征;

2)计算微博间距离;

3)构建多模态超图模型;

4)超图学习。

2.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤1中,所述提取微博多模态特征的具体方法如下:

步骤1.1对于文本模态,首先使用中科院自动分词工具ICTCLAS对微博文本内容进行分词,然后利用处理后的中文情感词典对分词后的每条微博文本构建词袋模型,作为最后筛选后的文本情感特征,所述中文情感词典由知网HowNet中文情感词典和台湾大学NTUSD中文情感词典组成,并筛选出在微博文本语料中出现的较高频度的2547个情感词,将其组成中文情感词典;第i条微博文本特征表示为Fibotw

步骤1.2对于视觉模态,首先提取图片底层视觉特征,包括局部二值模式特征、彩色直方图特征、GIST特征以及PHOW描述子词袋特征,然后使用形容词-动词对检测器库SentiBank对提取了底层视觉特征的每张微博图片进行中层特征的提取,获得1200个形容词-动词对的置信度值,并保留在0.8以上的置信度值,其余置为0,这样最终获得视觉情感特征;第i条微博图像特征表示为Fibovw

步骤1.3对于表情符号情感特征,首先收集文本语料里所有的表情符号,然后筛选出高频使用的49个表情符号,最后为每条微博构建表情符号词袋模型最为表情符号特征;第i条微博表情符号特征表示为Fiboew

3.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤2中,所述计算微博间距离的具体方法如下:

对于文本、视觉、表情符号三个模态特征,都使用欧氏距离进行计算,得到所有任意两条微博间三种模态的距离,分别用距离矩阵表示为Distbotw,Distbovw和Distboew

4.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤3中,所述构建多模态超图模型的具体方法如下:

步骤3.1计算不同模态下样本间的相似度,具体方法如下:使用欧式距离计算得到的三种模态下任意两条微博i和j间的情感距离,进而计算其相似度s(i,j);

步骤3.2计算超图的关联矩阵,超图可表示成其中表示所有结点集合,表示所有超边集合,w表示超边的权重集合;构建超图关联矩阵H:若结点vi在超边ej内,则H(vi,ej)=s(i,j);反之,H(vi,ej)=0;

步骤3.3计算结点度数和超边的度数:

结点v度数的计算如下:对于所有包含结点v的超边e,将超边e对应的权重w(e)与关联矩阵H中结点v和超边e对应关联值h(v,e)相乘并累加,得到结点v度数;

超边e度数的计算如下:将超边e与其包含的所有结点v对应的关联值h(v,e)作累加,得到超边e的度数;

步骤3.4计算超图拉普拉斯矩阵Δ和拉普拉斯正则化项Ω:

<mrow><mi>&Delta;</mi><mo>=</mo><mi>I</mi><mo>-</mo><msubsup><mi>D</mi><mi>v</mi><mrow><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac></mrow></msubsup><msubsup><mi>HWD</mi><mi>e</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><msup><mi>H</mi><mi>T</mi></msup><msubsup><mi>D</mi><mi>v</mi><mrow><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac></mrow></msubsup><mo>,</mo></mrow>

Ω(f)=fTΔf

其中,Dv、De、W和I分别表示结点度数对角矩阵、超边度数对角矩阵、超边权重对角矩阵和单位矩阵,f表示预测的情感类别向量,超图拉普拉斯矩阵反映了各结点的关联情况,拉普拉斯正则化项则反映了带有不同类别标签的结点的关联情况;

步骤3.5构建目标函数,即最小化由拉普拉斯正则化项Ω、期望损失项Remp(f)以及关于W正则化项组成的损失函数,求得最优的f和W;

<mrow><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>f</mi><mo>,</mo><mi>W</mi></mrow></munder><mo>{</mo><mi>&Omega;</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>&lambda;R</mi><mrow><mi>e</mi><mi>m</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>+</mo><mi>&mu;</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>e</mi></msub></munderover><msubsup><mi>w</mi><mi>i</mi><mn>2</mn></msubsup><mo>}</mo><mo>,</mo></mrow>

<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>e</mi></msub></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo><mi>&mu;</mi><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable><mo>.</mo></mrow>

其中Remp(f)=||f-y||2,表示预测类别向量f和标签向量y间的期望损失,表示L2正正则项,wi表示W对角线上的第i项,ne表示超边的个数,λ和μ分别为损失项系数和正则项系数。

5.如权利要求1所述一种基于多模态超图学习的微博情感预测方法,其特征在于在步骤4中,所述超图学习的具体方法如下:

使用交替迭代优化方法对目标函数进行优化,即每次迭代,先固定W,令目标函数对f求偏导数,求得当前迭代最优f,然后固定优化的f,令目标函数对W求偏导数,求得当前迭代最优W;将每次迭代后优化的f和W的值来初始化下一次迭代中f和W,如此反复迭代优化,直到损失函数值收敛,即得最终最优的f和W,其中f包含对无情感标签微博的情感预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611128388.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top