[发明专利]一种微博用户个性化情感倾向分析方法及系统有效

专利信息
申请号: 201310711626.9 申请日: 2013-12-20
公开(公告)号: CN103699626B 公开(公告)日: 2017-02-01
发明(设计)人: 王伟凝;刘剑聪;韦岗;王励 申请(专利权)人: 华南理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 陈文姬
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种微博用户个性化情感倾向分析方法,包括以下步骤数据采集、分词、加载词库和表情符号库、建立用户感兴趣话题库、划分短句、提取情感元素、建立用户个性化惯用语列表、惯用语情感值计算、计算用户话题情感倾向、计算用户总体情感倾向。本发明还公开了一种微博用户个性化情感倾向分析系统。本发明实现了对微博单个用户的情感分析,将用户的情感分析与对具体话题相结合,避免了笼统刻板的分析模式,使对用户的情感分析更细致、更具有方向性,提高情感倾向分析的准确度。
搜索关键词: 一种 用户 个性化 情感 倾向 分析 方法 系统
【主权项】:
一种微博用户个性化情感倾向分析方法,其特征在于,包括以下步骤:(1)采集每个用户的微博主页的所有数据,存入数据库;(2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注;(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:(4‑1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词;(4‑2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题;(4‑3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题;(4‑4)将步骤(4‑2)和(4‑3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库;(5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词;(6)提取每个短句中的情感元素,计算每个短句的初始情感值:(6‑1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性;(6‑2)计算短句中文本的情感值:设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“‑1”;否定词权值为“‑1”;程度词和标点符号按照其程度的深浅,设置权值,权值范围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度;短句中文本的情感值Iwords的计算方法为:Iwords=b·Σi=1m(Σj=1ncij·fij)·qi]]>式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正整数;(6‑3)计算短句中表情符号的情感值:对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面,中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“‑1”,中性表情符号的权值设为“0”;短句中表情符号情感值Imarks的计算方法为:Imarks=Σi=1lmi]]>式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情符号个数;(6‑4)计算短句的初始情感值I0:I0=Iwords+Imarks;(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,得出惯用语的情感值;对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平均,计算方法如下:Ig=1pΣi=1pI0i]]>式中,I0i为第i句包含该惯用语的短句的初始情感值,p为含有该惯用语的短句数,Ig为该惯用语的情感初值;将Ig的值映射在[‑3,3]中,得到惯用语的情感值I’g,记录在该用户的个性化惯用语情感标记表中;(9)计算每个短句的个性化情感值,计算方法为:I=I0-Σi=1m′(Σj=1n′cgij·fgij)·qgi+Σk=1rIgk′]]>式中,I0为短句的初始情感值,qgi表示第i个词语,cgij表示修饰qgi的第j个程度词权值,fgij表示修饰qgi的第j个否定词权值;若qgi没有附带程度词,则cgij取默认值1;若qgi没有附带否定词,则fgij取默认值1;n'取修饰qgi的程度词的个数和修饰qgi的否定词的个数中的最大值,m'表示词语的个数,i,j都为正整数;I'gk表示第k个惯用语的情感值,r表示该短句中惯用语的个数;(10)计算用户感兴趣话题的情感倾向:对于用户感兴趣话题库中的任一用户感兴趣话题词,按下式计算其情感值:Itopici=1wΣj=1wIj]]>Ij为包含该用户感兴趣话题词的第j个短句的个性化情感值,w为包含该用户感兴趣话题词的短句总数,为该用户感兴趣话题词的情感值;将的值映射在[‑3,3]中,得到最终的用户的话题情感倾向值,利用这些值,建立用户个性化微博话题情感值列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310711626.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top