[发明专利]一种面向特征词粒度的领域情感词典构建方法有效
申请号: | 201711096968.9 | 申请日: | 2017-11-09 |
公开(公告)号: | CN107832297B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 刘梦娟;刘冰冰;孟园;岳威;罗瑀铖 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F16/36;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种面向特征词粒度的领域情感词典构建方法,目的是在具体商品领域构建针对特征词粒度的情感词典。首先,建立与商品类别相关的领域语料库;然后,对每条评论进行分词、词性标记和依存关系分析,并基于规则从每条评论中提取特征词,情感词词对;在此基础上,建立词对之间的约束关系矩阵和相似度矩阵;基于词对之间的约束关系和相似度,分别计算词对的正向转移概率矩阵和负向转移概率矩阵;最后利用双向标签传播算法计算每个词对的极性值并据此对词对进行情感标记。 | ||
搜索关键词: | 一种 面向 特征 粒度 领域 情感 词典 构建 方法 | ||
【主权项】:
一种面向特征词粒度的领域情感词典构建方法,其特征在于,包括以下步骤:步骤1:将商品的评论语料库按商品领域进行分割得到领域语料库,每个领域语料库中的评论和评分都是关于同一类商品的评价;步骤2:对领域语料库中的每条评论进行预处理,并根据依存关系和词性搭配规则提取<特征词,情感词>词对;步骤3:根据设置的转折词集合和否定词集合,分析<特征词,情感词>词对在评论语句中的约束关系,构建词对之间的约束关系矩阵E;步骤4:基于公式(1)计算任意两个词对相似度,其中sim(A,B)表示词对A和词对B的相似度,num(A,B)表示词对A和词对B在评论中同时出现的次数,num+(A,B)表示两个词对在评论中约束关系值为+1的次数,num‑(A,B)表示两个词对在评论中的约束关系值为‑1的次数,link(A)表示与词对A同时出现过的词对的集合,link(B)表示与词对B同时出现过的词对的集合,i表示对应集合中的词对,得到词对的相似度矩阵;sim(A,B)=num+(A,B)-num-(A,B)unm(A,B)×num(A,B)Σi∈link(A)num(A,i)+Σi∈link(B)num(B,i)-num(A,B),num(A,B)≠00,num(A,B)=0---(1)]]>步骤5:分别根据词对之间的约束关系值和相似度计算词对之间的转移概率矩阵,这里的转移概率矩阵包括正向转移概率矩阵和负向转移概率矩阵,首先计算约束关系值大于0的词对之间的正向传播概率矩阵,约束关系值大于0说明两个词对的极性值是相同的,计算公式如(2)所示,这里t+(i,j)表示词对i到词对j的正向转移概率,P(i)表示与词对i极性相同的词对集合;然后计算约束关系值小于0的词对之间的负向转移概率矩阵,计算公式如(3)所示,这里t‑(i,j)表示词对i到词对j的负向转移概率,N(i)表示与词对i极性相反的词对集合;t+(i,j)=sim(i,j)/Σk∈P(i)sim(i,k),sim(i,j)>00,sim(i,j)≤0---(2)]]>t-(i,j)=sim(i,j)/|Σk∈N(i)sim(i,k)|,sim(i,j)<00,sim(i,j)≥0---(3)]]>步骤6:基于一个双向标签传播算法计算每个<特征词,情感词>词对的极性值,并根据每个词对的极性值来标记词对的情感极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为褒义词;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为贬义词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711096968.9/,转载请声明来源钻瓜专利网。