[发明专利]一种基于词典改进LDA模型的评论方面观点级挖掘方法有效

专利信息
申请号: 201911058218.1 申请日: 2019-10-31
公开(公告)号: CN110837740B 公开(公告)日: 2021-04-20
发明(设计)人: 袁凌;冯晋田;李金珊;魏明;杨雷 申请(专利权)人: 华中科技大学;武汉烽火技术服务有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/31;G06F16/35
代理公司: 华中科技大学专利中心 42201 代理人: 李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 词典 改进 lda 模型 评论 方面 观点 挖掘 方法
【权利要求书】:

1.一种基于词典改进LDA模型的评论方面观点级挖掘方法,其特征在于,所述方面是评论文本中所谈论的有关评论对象的属性细节,该方法包括以下步骤:

S1.基于原始网络评论库,构建倒排索引列表;

S2.对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;

S3.将预处理后网络评论库输入基于词典SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;

S4.对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子;

步骤S3包括以下子步骤:

S31.将网络评论库的方面直接设置为种子词;

S32.将网络评论库中的评论文本以句子为单位进行划分,形成一个评论文本句子集合;

S33.基于单词与种子词之间的相似度,为每个句子设置不同参数αd;基于单词与种子词之间的语义相似度,将为每个主题单独设置对方面级对象词、积极评论词、消极评论词分别设置参数βt,A、βt,P、βt,N

S34.采用吉布斯抽样评论文本句子集合,对基于词典SentiWordNet与WordNet的改进LDA模型进行参数估计与推理。

2.如权利要求1所述的方法,其特征在于,步骤S1包括以下子步骤:

S11.以二元组a,b的形式对原始网络评论库中各句子各单词进行编号,a表示所在句子的编号,b表示在句中单词的编号;

S12.去除原始网络评论库中重复的词,并记录剩余单词编号;

S13.基于去重后的单词编号,生成倒排索引列表。

3.如权利要求1所述的方法,其特征在于,

βt,A=sim(w,A)*βbase

βt,P=sim(w,P)*βbase

βt,N=sim(w,N)*βbase

其中,Nd为当前句子中所有词的个数,T为主题个数,wd,i为当前句子中的第i个词,t为种子词,sim(w,t)表示w与种子词t语义相似度,αbase表示标准LDA模型中主题服从狄利克雷分布的定值参数α;sim(w,A)表示w属于对象词的概率,sim(w,P)表示w属于积极词的概率,sim(w,N)表示w属于消极词的概率,βbase为标准LDA模型中单词服从狄利克雷分布的定值参数β。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学;武汉烽火技术服务有限公司,未经华中科技大学;武汉烽火技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911058218.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top