[发明专利]一种基于多特征集成学习的文本情感分类方法有效

申请号：	201811335524.0	申请日：	2018-11-10
公开（公告）号：	CN109492105B	公开（公告）日：	2022-11-15
发明（设计）人：	陈福;陈小波	申请（专利权）人：	上海五节数据科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/205;G06K9/62
代理公司：	上海牧信专利代理事务所(普通合伙) 31416	代理人：	盛际丰
地址：	201100 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多特征集成学习的文本情感分类方法。本方法为：文本预处理。构造词语词典和情感词典。文本在每种词典上的向量化表示。训练基分类器：在每种文本向量化表示的基础上训练分类器。最后将基分类器集成，通过多个基分类器的线性组合来决定预测文本情感的最终分类。本发明具有以下优点：通过设计词语词典和情感词典，在两个互补的特征空间对文本进行表示，可以提取文本中更丰富的情感特征。同时，集成学习可以将不同特征空间中的情感鉴别结果进行融合，提高了文本情感分类的准确度。
搜索关键词：	一种基于特征集成学习文本情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多特征集成学习的文本情感分类方法，其特征在于包括如下步骤：步骤1：数据获取；获取文本集合D＝{D1，D2，…，DN}及对应的情感标签集合Y＝{y1，y2，…，yN}，Di表示第i个文本，yi表示第i个文本的情感类别：如果Di的情感为正面，则yi＝1，如果Di的情感为负面，则yi＝2，如果Di的情感为中性，则yi＝3，1≤i≤N，N为文本集合D中的文本总数；步骤2：对文本集合D中的每个文本D_i进行分词，并对分词结果进行去除停用词，从而获得第i个文本的词语集合c_ij表示第i个文本中的第j个词语；1≤j≤m_i，m_i为第i个文本中的词语总数；步骤3：将文本集合D中N个文本的词语集合取并集，从而得到所述文本集合D的全体词语集合T＝{t1，t2，…，tK}，tk表示所述全体词语集合T中的第k个词语，K表示所述全体词语集合T所包含的词语总数，1≤k≤K；步骤4：从全体词语集合T中选出词语子集其中t_(k)∈T，k＝1，2，…，K₁，K₁为子集大小，K₁≤K；步骤5：将所述文本集合D在词语集合TA上表示成向量形式{X1，X2，…，XN}；步骤6：搜集多个情感极性词典，并将这些词典合并，去除重复情感词语，获得情感词语集合S＝{s1，s2，…，sQ}，sq表示所述情感词语集合s中的第q个词语，Q表示所述情感词语集合s所包含的情感词语总数，1≤q≤Q；步骤7：从情感词语集合s中选出情感词语子集其中s_(q)∈T，q＝1，2，…，K₂，K₂为子集大小，K₂≤Q；步骤8：将所述文本集合D在情感词语子集SA上表示成向量形式{Z1，Z2，…，ZN}；步骤9：选择基分类器类型，以所述文本集合D在词语子集TA上的向量表示{X₁，X₂，…，X_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器1，假设表示基分类器1预测的x∈{X₁，X₂，…，X_N}属于类别y_i的概率；步骤10：选择基分类器类型，以所述文本集合D在情感词语子集SA上的向量表示{Z₁，Z₂，…，Z_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器2，假设表示基分类器2预测的z∈{Z₁，Z₂，…，Z_N}属于类别y_i的概率；步骤11：以加权线性组合的方式将基分类器1和基分类器2进行集成，获得最终的集成分类器其中，f_yi表示文本属于类别y_i的概率，α表示基分类器1的重要性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海五节数据科技有限公司，未经上海五节数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811335524.0/，转载请声明来源钻瓜专利网。

上一篇：意图分类模型的训练方法、分类方法、系统、设备和介质
下一篇：一种文本代码相结合的缺陷原因自动分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多特征集成学习的文本情感分类方法有效

专利文献下载