[发明专利]一种基于词典改进LDA模型的评论方面观点级挖掘方法有效
申请号: | 201911058218.1 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110837740B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 袁凌;冯晋田;李金珊;魏明;杨雷 | 申请(专利权)人: | 华中科技大学;武汉烽火技术服务有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/31;G06F16/35 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 改进 lda 模型 评论 方面 观点 挖掘 方法 | ||
本发明公开了一种基于词典改进LDA模型的评论方面观点级挖掘方法,属于网络评论文本挖掘领域。包括:基于原始网络评论库,构建倒排索引列表;对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。本发明将网络评论库的方面直接设置为种子词,不需要人工标注。将评价对象词与评论观点进行分离,通过计算单词与种子词的相似度对LDA模型参数进行偏置,提高模型的效果。基于倒排索引,将聚类结果同种子词及原文建立联系,提高结果的可读性。
技术领域
本发明属于网络评论文本挖掘领域,更具体地,涉及一种基于词典改进LDA模型的评论方面观点级挖掘方法。
背景技术
移动互联网的迅猛发展和智能手机的普及,为人们随时随地发表评论和意见提供了有利条件。在Twitter、微博等社交平台,在淘宝、亚马逊、京东等网购平台,人们可以对不同领域的不同商品进行评价。有效的分析这些评价,能够辅助厂家进行销售、未来发展的决策,亦能帮助消费者筛选合乎自己期待的产品。但单纯对评论语句进行情感极性判断,不能提供有效的信息,还需要进一步确定情感词描述的对象。与新闻报道、博客等不同,网络评论一般内容较短。因服务内容不同,网络评论的点评对象所在领域也各不相同。且网络评论对象包含的属性较多,只有通过对方面级观点进行挖掘,才能掌握评论中的有效信息。
评论的方面级观点挖掘能够从评论中抽取方面级评论对象和评论范畴,有着重要的研究意义与价值。方面级评论对象(Opinion Target Expression Extraction)是指情感观点词所修饰的实体本身或者属性。在评论信息的挖掘中,仅判断评论语句的情感极性对阅读评论的人毫无意义,人们更关心商品具体层面上的好与坏。因此确定评论的方面级评论对象具有十分重要的意义。如商品评论,“这个手机外观一般,电池电量足,信号也很强。”,如果直接判断该语句的情感极性,在用户尚未阅读原文的情况下,只能了解到有一个评论表示手机好,这显然对用户的价值不大。因此在进行评论挖掘时,要先对评论语句中的方面级评论对象词进行抽取,如针对上述语句,应该抽取出的词为“外观”、“电池”、“信号”。评论范畴识别(AspectCategory Identification)与方面级评论对象为属于关系。除了判断词属于某个评论范畴外,语句同样可以打上评论范畴的标签。
然而海量的评论涉及的商品种类繁多,方面级观点挖掘所需数据标注的过程繁琐,为所有领域的评论建立规范标注语料库将耗费大量的资源。依赖于标注数据集的有监督方法将很难应用于缺乏标注语料的评论领域。如何在少监督及无监督情况下提高模型的效果,并使模型具有领域适应性(包括不同领域、不同语言),是非常值得研究的课题。现有技术为MaxEnt-LDA模型,它引入了两个分布来指示评论对象词与情感词的分类和积极情感词与消极情感词的分类。但是,它存在以下缺陷:用来指示评论对象词和情感词分类的分类器使用了最大熵模型,需要对数据集进行大量标注。
发明内容
针对现有技术基于MaxEnt-LDA模型评论的方面级观点挖掘方法需要对数据集进行大量标注,本发明提供了一种基于词典改进LDA模型的评论方面观点级挖掘方法,其目的在于使用尽可能少的用标注数据来解决网络评论方面级观点挖掘的问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于词典改进LDA模型的评论方面观点级挖掘方法,该方法包括以下步骤:
S1.基于原始网络评论库,构建倒排索引列表;
S2.对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;
S3.将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;
S4.对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学;武汉烽火技术服务有限公司,未经华中科技大学;武汉烽火技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058218.1/2.html,转载请声明来源钻瓜专利网。