[发明专利]一种短英文影评分类方法及装置在审

申请号：	201910514997.5	申请日：	2019-06-14
公开（公告）号：	CN110347825A	公开（公告）日：	2019-10-18
发明（设计）人：	唐恒亮;米源;薛菲	申请（专利权）人：	北京物资学院
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33
代理公司：	北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624	代理人：	李景辉
地址：	101149 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	预测结果分类英文分类结果分类模型测试集结果集规范化单词第一层鲁棒性预测拼接算数文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种短英文影评分类方法及装置，其中，所述方法包括：获取待分类短英文影评文本的特征单词集；通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小‑最大规范化处理，得到规范化结果集；采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果。根据本发明的技术方案，极大地提高了分类结果的准确性和鲁棒性。

技术领域

本发明涉及网络科技领域，尤其涉及一种短英文影评分类方法及装置。

背景技术

随着大数据时代的到来，在线评论数据量日趋庞大，海量数据及良莠不齐的评论质量使影评的效用研究具有更为现实的意义。电影评论深度挖掘的目标在于分析和评价蕴含在影评中所体现出的价值。发展至今，电影评论已从纸质影评发展到电子影评阶段。目前很多电影网站都提供电影评论作为观影的参考。将电影评论作为信息源，将消费者作为信息阅读者，信息源的语言特征和语义内容对信息阅读者的判断和行为表现有直接影响。

目前研究现状主要有以下方面：

基于TF-IDF的传统分类方法，该方法简单快速，能够很好的完成提取文章中关键词的目标，结果比较符合实际，但该方法只单纯考虑词频，无法直接应用在影评文本中。

基于Word2Vec的传统分类方法，Word2Vec特征提取方法克服传统TF-IDF方法在语序和语义方面表现不佳的问题，同时将TF-IDF的高维稀疏向量空间降维到低维稠密向量空间，大大降低计算成本，但该方法存在情感词典无法有效考察文本的上下文语境信息的问题。

基于Word2Vec的stacking融合分类方法，stacking算法是1992年Worlpert提出的Stacked Generalization的学习模型，对基分类器的学习结果进行再集成得到集成模型预测结果，既能集成各基分类器的训练结果，也能组合各种可能决定分类的相关信息，因此普遍认为其性能优于贝叶斯投票方法，但该方法存在短文本情感分类准确率较低的问题。

但现有传统分类方法中，大量使如SVC、朴素贝叶斯、决策树、逻辑回归等算法，其普遍存在着数据过拟合的问题，使得影评二分类问题的准确率较低。

发明内容

本发明的目的是提供一种短英文影评分类方法，为了提高影评二分类问题的准确率，使分类结果具有较好的准确性和鲁棒性。

为达到上述目的，一方面，本发明实施例提供一种短英文影评分类方法，包括：

获取待分类短英文影评文本的特征单词集；

通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；

通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小-最大规范化处理，得到规范化结果集；

采用简单多数法对所述规范化结果集进行处理，得到所述待分类短英文影评的分类结果。

另一方面，本发明提供一种基短英文影评分类装置，包括：

获取单元，用于获取待分类短英文影评文本的特征单词集；

第一分类单元，用于通过预先训练的第一层分类模型对所述特征单词集进行预测分类得到第一预测结果集，将所述第一预测结果集进行拼接并取算数平均得到新测试集；

第二分类单元，用于通过预先训练的第二层分类模型对所述新测试集进行预测得到第二预测结果集，对所述第二预测结果集进行最小-最大规范化处理，得到规范化结果集；