[发明专利]基于主题情感语义提取的细粒度观点挖掘方法在审
申请号: | 201611029643.4 | 申请日: | 2016-11-15 |
公开(公告)号: | CN106599063A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 杨正良;李舒燕 | 申请(专利权)人: | 武汉璞华大数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 傅海鹏 |
地址: | 430000 湖北省武汉市雄*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 情感 语义 提取 细粒度 观点 挖掘 方法 | ||
技术领域
本发明涉及文本挖掘技术领域,具体是一种基于主题情感语义提取的细粒度观点挖掘方法。
背景技术
现阶段随着网购热潮的来临,在线评论信息数目呈现井喷式增长。面对这数目巨大且无结构化的信息数据,仅靠人工阅读方式筛选所需信息不仅工作量非常繁重,而且很难及时有效地获取有价值的信息;另一方面这些在线评论信息对许多潜在消费者,企业组织,乃至国家机关政府部门等各种类型的用户有至关重要的作用。如何帮助这些庞大的用户群及时高效针对海量评论信息,自动分析提取其中的观点信息是当前面临的一个重要问题。
目前大多数情感语义提取方法采用的模型大都未考虑到词语的位置和语义关系,然而其对观点表达有着重要的影响,要想获取更准确和有价值的观点信息,需要对模型进行改进后才能用于细粒度观点挖掘。其次自然语言存在多义性和相关性,导致评论的观点挖掘和建模存在不确定性:一方面进行定性概念描述时存在界限的模糊性;另一方面模型的定量表示又具有随机性。当前的模型用于观点挖掘时,仅考虑了定量的随机性而忽视了定性概念的模糊性。
发明内容
本发明的目的在于提供一种基于主题情感语义提取的细粒度观点挖掘方法,旨在帮助企业快速获取用户的评论信息。
为实现上述目的,本发明提供如下技术方案:
基于主题情感语义提取的细粒度观点挖掘方法,利用基于云模型的主题情感统一最大熵模型(Sentiment Cloud Maximum Entropy LDA Model,SC MaxEnt-LDA)进行主题情感语义提取,所述的方法包括以下步骤:
(1)首先,使用基于LDA的最大熵模型(Maximum Entropy LDA Model,MaxEn-LDA)进行特征词和观点词提取;
(2)然后,开展情感极性分析,同时对具有不确定性的情感进行定性定量转换建模,在此基础上提出情感修正算法(Sentiment Revision Algorithm,SRA),通过贴近度和云期望曲线实现全局情感和主题情感的相似度计算,进而完成对情感偏差的校正,即将句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1-5,进而有效提高观点挖掘的精确度;
(3)最后,总结归纳生成情感摘要。
作为本发明进一步的方案:所述的句子的情感的分类是基于词和短语层次,据此判断消费者对产品或服务在某个方面(主题)的情感倾向性,将情感分类细化到词语、短语级别,实现从主题层面获取情感极性,能挖掘用户更深层次的观点来满足实际应用需求。
作为本发明进一步的方案:所述的步骤(1)中,在使用基于LDA的最大熵模型进行特征词和观点词提取之前,还包括语料的预处理,将预处理后的语料输入基于云模型的主题情感统一最大熵模型。
作为本发明进一步的方案:所述的基于云模型的主题情感统一最大熵模型中,对于语料库中的每篇文档,产生文档-主题(D-T)分布,其中D表示文档,T表示主题;对于每个主题产生主题-情感(T-S)分布,对文档中每个句子,通过多项式分布(Polynomial Distribution)和伯努利分布(Bernoulli Distribution)确定其主题和情感,其中T表示主题,S表示情感。
作为本发明进一步的方案:所述的步骤(2)中,情感修正算法是基于云模型的,由于利用基于LDA的最大熵模型提取出的全局观点词的情感倾向代表了所有评论发布者的总的态度,经过LDA模型(Latent Dirichlet Allocation,LDA)处理后得到的每个主题下的情感分布在一定程度上应该和全局观点词的情感分布是相似的,若一个主题下观点词的情感分布与全局观点词的情感分布存在明显偏差,则认为需要进行情感的修正。
作为本发明进一步的方案:所述的步骤(2)中,云期望曲线是通过逆向云发生器得到的。
与现有技术相比,本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉璞华大数据技术有限公司,未经武汉璞华大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611029643.4/2.html,转载请声明来源钻瓜专利网。