[发明专利]一种短英文影评分类方法及装置在审
申请号: | 201910514997.5 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110347825A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 唐恒亮;米源;薛菲 | 申请(专利权)人: | 北京物资学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 李景辉 |
地址: | 101149 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测结果 分类 英文 分类结果 分类模型 测试集 结果集 规范化 单词 第一层 鲁棒性 预测 拼接 算数 文本 | ||
1.一种短英文影评分类方法,其特征在于,包括:
获取待分类短英文影评文本的特征单词集;
通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
2.如权利要求1所述的方法,其特征在于,所述获取待分类短英文影评文本的特征单词,包括:
获取待分类短英文影评文本;
根据语料库对所述待分类短英文影评文本进行数据清洗与去燥;
通过Word2Vec特征提取法提取所述清洗与去燥后的待分类短英文影评文本中的特征单词,获得待分类短英文影评文本的特征单词集。
3.如权利要求1所述的方法,其特征在于,所述预先训练的第一层分类模型通过以下步骤获得:
采用随机森林算法、超随机树算法、梯度提升XGBoost算法、迭代AdaBoost算法和分布式梯度提升LightGBM算法组成第一层分类模型;
获取训练集数据和验证集数据;
根据所述训练集数据以交叉验证法对上述每一个算法进行训练,获得预先训练的第一层分类模型;
并通过预先训练的第一层分类模型对所述验证集数据进行预测得到第一训练结果集。
4.如权利要求3所述的方法,其特征在于,所述预先训练的第二层分类模型通过以下步骤获得:
采用选择逻辑回归、线性核函数的交换虚拟通路SVC和梯度提升树算法组成第二层分类模型;
将所述第一训练结果集拼接后得到第二层模型的新训练集数据,
根据所述新训练集数据对第二层分类模型算法依次进行训练,获得预先训练的第二层分类模型。
5.如权利要求1所述的方法,其特征在于,所述对第二预测结果集进行最小-最大规范化处理,得到规范化结果集,包括:
根据以下公式对所述第二预测结果集中预测结果rij进行最小-最大规范化处理,得到最小-最大规范化处理后的预测结果r′ij:
其中,rij为第二层分类模型中第i个模型对第j个特征单词的预测结果,min(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最小的分类概率,max(Ri)为第二层分类模型中第i个模型对特征单词的预测结果的最大的分类概率;将最小-最大规范化处理后的预测结果r′ij组成规范化结果集。
6.如权利要求5所述的方法,其特征在于,所述采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果,包括:
根据以下公式对所述规范化结果集中的预测结果r′ij进行处理:
其中,rj表示第j个特征单词对应的分类结果,m表示第二层分类模型中的算法模型的个数;
若一半以上的特征单词对应的分类结果rj的类别为1时,判定所述待分类短英文影评的分类结果为1,否则所述待分类短英文影评的分类结果为0。
7.一种短英文影评分类装置,其特征在于,包括:
获取单元,用于获取待分类短英文影评文本的特征单词集;
第一分类单元,用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集,将所述第一预测结果集进行拼接并取算数平均得到新测试集;
第二分类单元,用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集,对所述第二预测结果集进行最小-最大规范化处理,得到规范化结果集;
结果确定单元,用于采用简单多数法对所述规范化结果集进行处理,得到所述待分类短英文影评的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京物资学院,未经北京物资学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910514997.5/1.html,转载请声明来源钻瓜专利网。