[发明专利]融合表情符号库和主题模型的方面观点褒贬态度挖掘方法在审
申请号: | 201811134055.6 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109284381A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 张士兵;张茜;张晓格 | 申请(专利权)人: | 南通大学;南通先进通信技术研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/2458;G06F17/27 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;吴扬帆 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 表情符号库 主题模型 挖掘 评论 显式 隐式 用户评论 融合 相似度矩阵 参数估计 聚类算法 融合应用 原创内容 构建 分析 | ||
本发明的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法为:首先计算原创微博及评论中名词之间的相似度矩阵,利用谱聚类算法得到与原创微博提到的方面相关的显式方面集与隐式方面集;然后构建融合表情符号库和主题模型的方面观点褒贬态度挖掘模型,并进行参数估计;最后结合观点挖掘模型和显式、隐式方面集对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。本发明将主题模型与表情符号库相融合应用到微博原创内容下用户评论的方面观点挖掘和褒贬态度分析,同时结合与原创微博方面相关的显式方面以及存在于评论中的隐式方面,以更好获取评论用户对原创微博的褒贬态度,提高对评论集整体的褒贬态度倾向的判断。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法。
背景技术
微博2.0是最受欢迎的应用之一,它给予用户更自由、更快捷的方式来沟通信息、表达观点、记录心情,使得新浪微博每日更新的信息数据非常庞大,增加了微博内容的方面及基于方面的观点挖掘的难度。近年来,以LDA为基础的主题模型能有效地避免传统无监督学习方法依赖情感词典的缺点,达到较好的挖掘效果。
新浪微博中,每条原创微博下存在很多用户评论。有些用户表达自己对原创微博内容的褒贬态度倾向,有些用户则是阅读过原创微博内容后有感而发,写下表达自己个人观点的评论。这些评论反映了原创微博的内容,用户的褒贬态度和一些相关的话题。因此,对这些评论进行方面观点的提取和褒贬态度的挖掘是很有必要的,因此,对原创微博及其评论集进行方面观点的提取和褒贬态度的挖掘是很有必要的。事实上,微博评论提供的细粒度的信息同样会受到广大用户阅读时的重点关注,同时也更加值得研究者们进一步去挖掘、分析与总结。因此,面对新浪微博中海量的原创微博及其评论信息,需要一种能够自动对微博评论数据进行方面观点挖掘的方法来挖掘和分析评论中细粒度信息,这样才能使得用户更快速、更准确地了解原创微博的内容。
若是将评论情感分析的结果,作为判别评论用户对原创微博的褒贬态度倾向的依据,会造成很大的误差。其次,用户在评论的过程中喜欢选择表情符号来增强自己的情感或是营造出一种情感氛围,表情符号包含着丰富的情感信息。只是依靠文本内容,而忽略表情符号的情感,很有可能产生对该评论的褒贬态度倾向的误判。
发明内容
本发明目的在于克服上述背景技术的不足,公开一种融合表情符号库和主题模型的方面观点挖掘褒贬态度挖掘方法,本发明将主题模型与表情符号库相融合应用到微博原创内容下用户评论的方面观点挖掘和褒贬态度分析,同时结合谱聚类算法得到的与原创微博方面相关的显式方面集以及存在与评论中的隐式方面集,以更好获取基于不同方面的评论用户褒贬态度,具体由以下技术方案实现:
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,包括如下步骤:
步骤1)对原创微博内容及评论进行预处理,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;
步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到 MAOEC模型的参数分布;
步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。
所述融合表情符号库和主题模型的方面观点褒贬态度挖掘方法的进一步设计在于,所述步骤1)中的所述预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学;南通先进通信技术研究院有限公司,未经南通大学;南通先进通信技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811134055.6/2.html,转载请声明来源钻瓜专利网。