[发明专利]影评情感分析中使用特征词集将影评以特征向量表示的方法有效
申请号: | 201810480149.2 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108763203B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 赵丹丹;高宠 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影评 情感 分析 使用 特征 词集将 特征向量 表示 方法 | ||
1.一种影评情感分析中使用特征词集将影评以特征向量表示的方法,其特征在于,语料下载,编写爬虫对影评进行下载;选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;判断特征词集中的每一个特征词是否在该影评中出现,如果出现标注1,否则标注0,形成该影评的数组,将每条影评都转化为特征表示形式,作为特征向量,由下述数学模型确定的分类器对待测影评情感倾向性分类概率计算:
只要计算不同类别下p(Ci|w1,w2...wn)的大小并取最大值即可判断其归类情感倾向;
p(Ci)包括消极类概率与积极类概率:
消极类概率:
积极类概率:
Ci表示分类的特征向量文本,i=0,1;
p(wj|Ci)表示按类别计算所述特征词集中的特征词在训练集的该类特征向量文本中出现的概率,其包括特征词在训练集中消极特征向量文本中出现的概率与特征词在训练集中积极特征向量文本中出现的概率;
特征词在训练集中消极特征向量文本中出现的概率:
p(wj|C0)=[p(w0|C0),p(w1|C0),p(w2|C0),…,p(wn|C0)]
特征词在训练集中积极特征向量文本中出现的概率:
p(wj|C1)=[p(w0|C1),p(w1|C1),p(w2|C1),…,p(wn|C1)]
Ci表示分类的特征向量文本,i=0,1,wj表示特征词集中的特征词,j=1,2…n,n是特征词集中的特征词的数量;
p(Ci|wj)表示所述特征词集中的特征词能够分别出现在训练集的每类向量文本中的概率,其包括特征词能够出现在训练集的消极类中的概率与特征词能够出现在训练集的积极类中的概率:
特征词能够出现在训练集的消极类中的概率:
p(C0|wj)=[p(C0|w0),p(C0|w1),p(C0|w2),…,p(C0lwn)]
特征词能够出现在训练集的积极类中的概率:
p(C1|wj)=[p(C1|w0),p(C1|w1),p(C1|w2),…,p(C1|wn)]
Ci表示分类的特征向量文本,i=0,1,wj表示特征词集中的特征词,j=1,2…n,n是特征词集中的特征词的数量;i=0表示待测影评情感倾向消极分类,i=1表示待测影评情感倾向积极分类,data为待测情感倾向性的影评数据,其为由所述特征词集表示的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810480149.2/1.html,转载请声明来源钻瓜专利网。