[发明专利]一种基于词典改进LDA模型的评论方面观点级挖掘方法有效
申请号: | 201911058218.1 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110837740B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 袁凌;冯晋田;李金珊;魏明;杨雷 | 申请(专利权)人: | 华中科技大学;武汉烽火技术服务有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/31;G06F16/35 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词典 改进 lda 模型 评论 方面 观点 挖掘 方法 | ||
1.一种基于词典改进LDA模型的评论方面观点级挖掘方法,其特征在于,所述方面是评论文本中所谈论的有关评论对象的属性细节,该方法包括以下步骤:
S1.基于原始网络评论库,构建倒排索引列表;
S2.对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;
S3.将预处理后网络评论库输入基于词典SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;
S4.对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子;
步骤S3包括以下子步骤:
S31.将网络评论库的方面直接设置为种子词;
S32.将网络评论库中的评论文本以句子为单位进行划分,形成一个评论文本句子集合;
S33.基于单词与种子词之间的相似度,为每个句子设置不同参数αd;基于单词与种子词之间的语义相似度,将为每个主题单独设置对方面级对象词、积极评论词、消极评论词分别设置参数βt,A、βt,P、βt,N;
S34.采用吉布斯抽样评论文本句子集合,对基于词典SentiWordNet与WordNet的改进LDA模型进行参数估计与推理。
2.如权利要求1所述的方法,其特征在于,步骤S1包括以下子步骤:
S11.以二元组a,b的形式对原始网络评论库中各句子各单词进行编号,a表示所在句子的编号,b表示在句中单词的编号;
S12.去除原始网络评论库中重复的词,并记录剩余单词编号;
S13.基于去重后的单词编号,生成倒排索引列表。
3.如权利要求1所述的方法,其特征在于,
βt,A=sim(w,A)*βbase
βt,P=sim(w,P)*βbase
βt,N=sim(w,N)*βbase
其中,Nd为当前句子中所有词的个数,T为主题个数,wd,i为当前句子中的第i个词,t为种子词,sim(w,t)表示w与种子词t语义相似度,αbase表示标准LDA模型中主题服从狄利克雷分布的定值参数α;sim(w,A)表示w属于对象词的概率,sim(w,P)表示w属于积极词的概率,sim(w,N)表示w属于消极词的概率,βbase为标准LDA模型中单词服从狄利克雷分布的定值参数β。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学;武汉烽火技术服务有限公司,未经华中科技大学;武汉烽火技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058218.1/1.html,转载请声明来源钻瓜专利网。