[发明专利]一种基于松散条件下协同学习的中文微博情感分析方法有效
申请号: | 201810091745.1 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108228569B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 李玉强;孙念;黎威威 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/253;G06F40/284;G06F16/35 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 松散 条件下 协同 学习 中文 情感 分析 方法 | ||
1.一种基于松散条件下协同学习的中文微博情感分析方法,其特征在于,包括如下步骤:
步骤1、构建初始已标注微博数据集L和未标注微博数据集U,具体是:从NLP&CC提供的中文微博情感标注语料集得到L+P+Q+W条已标注微博,并从从已标注微博语料集中随机选取M条积极微博和N条消极微博作为训练集L,再选取P条积极微博和Q条消极微博作为测试集,剩下的W的条已标注微博作为不确定性样本数据集;
步骤2、对已标注微博数据集L和未标注微博数据集U进行特征提取,特征提取包含:分词、去停用词、特征提取、特征加权,具体是从文本的向量空间模型VSM表示和词向量的分布式特征两个视图进行提取,特征提取基于CHI特征选择,CHI特征选择通过度量特征项t和情感类别c之间的关联度,具体计算公式如下:
其中,公式中各个参数的含义,说明如下:N表示训练集L中微博的总数;A表示在类别c中,包含特征项t的微博数量;B表示类别c中,排除该类别,其他类别包含特征项t的微博的数量;C表示在类别c中,不包含特征项t的微博的数量;D表示在类别c中,不包含特征项t也不在该类别中的微博数量;特征加权基于TF-IDF权重计算方法,TF表示某一个特征项在该微博中出现的频率,特征项t的TF值具体计算公式如下:
其中,nt,j表示特征项t在微博j中出现的次数,∑knk,j表示微博j中所有特征项出现的次数之和;
IDF表示的是反文档频率,是指如果包含某个特征项的微博越少,IDF越大,说明该特征项具有很好的类别区分能力,特征项t的IDF值具体计算公式如下:
其中,N表示所有微博总数,Nt表示包含特征项t的微博总数;TF-IDF的计算公式如下:
TF-IDF=TF*IDF
步骤3、构造SVM分类器C1和LSTM分类器C2,利用已标注微博数据集L对C1、C2分别进行训练,具体是:SVM分类器采用LibSVM工具包实现,LSTM分类模型中,采用word2vec模型训练得到的词向量作为输入,设置词向量的维数,输出包含整个微博文本词序列信息的实值向量,最后利用Softmax函数来得到文本的情感极性;
步骤4、利用训练好的分类模型对未标注微博数据集U进行预测,具体方法是:利用训练好的两个分类模型分别对未标注微博数据集U进行预测,预测值的范围控制在[-1,1]区间,越接近-1说明微博的消极程度越高,越接近1说明微博的积极程度越高,将预测后得到的两个预测置信度进行取平均值得到整体预测置信度;
步骤5、选择未标注样本加入到训练集,以修正分类模型;其中,未标注样本是根据不确定性最高策略和置信度最高策略相结合进行选择,具体包括:首先根据步骤4中的整体预测置信度大小,将样本进行降序排列,选取前m个样本,即为置信度最高的m个样本加入到已标注微博数据集L中;然后选取不确定性最高的n个样本,交由人工标注后,加入到已标注微博数据集L中;其中,不确定性权值的计算公式为:
其中,Uncertain(d)表示样本d的不确定性权值,pos表示情感极性为积极的微博样本,neg表示情感极性为消极的微博样本,neu表示情感极性为中性的微博样本,p(yi|d)表示样本d属于类别yi的分类置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091745.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数学题目语义理解方法
- 下一篇:一种基于实体突发特征的文本表示方法