[发明专利]一种基于极大无关多元逻辑回归的文本情感分类方法有效
申请号: | 201810332338.5 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108595568B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 雷大江;张红宇;陈浩;张莉萍;吴渝;杨杰;程克非 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/18 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 极大 无关 多元 逻辑 回归 文本 情感 分类 方法 | ||
本发明提供了一种基于极大无关多元逻辑回归的文本情感分类方法,所述方法包括:获取文本数据,并对所述文本数据进行预处理;在第一模型的代价函数基础上,通过引入相关参数惩罚项,获取第二模型的代价函数;将预处理得到的训练数据输入第二模型的代价函数的导函数,并进行求解得到第二模型;所述第一模型为多元逻辑回归模型,所述第二模型为极大无关多元逻辑回归模型;将预处理得到的待预测数据输入所述第二模型,得到待预测数据中每个文本条目所属的情感类别。通过添加不相关约束项使得针对冗余数据具有较高的鲁棒性;降低了传统的多元逻辑回归模型的复杂度,具有更强的泛化能力;进而能够对获取的目标文本数据中文本条目进行精确分类。
技术领域
本发明涉及机器学习领域,尤其涉及一种基于极大无关多元逻辑回归的文本情感分类方法。
背景技术
分类作为机器学习、数据挖掘的关键部分,在图像识别、药物开发、语音识别、手写辨识等方面有着广泛的应用。它是基于已知训练集识别一个新的实例属于哪个类别的有监督的学习问题。在分类算法中,非线性分类能力以及能否扩展到多分类至关重要。
支持向量机(SVM)是一种经典的二值分类器,其采用Hinge损失,通过解带约束条件的二次优化问题来建立数据集之间的最佳分界线。与其他算法相比,其重要优势在于:通过使用不同的核函数,SVM既可以用于线性分类,也可以用于非线性分类。但是由于其依赖于一对一模式,SVM在多类分类上受到很大限制,尽管在将SVM扩展到多类分类上做了很多努力,但这些方法仍然有很多负面的影响。例如,多类别分类中,SVM一对多的决策方法就深受数据集类间不平衡的影响。另一个重要的问题是它可能将同一实例分配给多个类。虽然许多方法被提出来解决这些问题,但是它们都有其他不利影响:比如效率。SVM的结果是纯粹二分的,不支持概率输出。SVM从一个任务的数值输出与另一个任务的数值输出不具有可比性。此外,与基于信任度的分类器相比,这种没有限制的数值对于终端用户来讲很难解释其背后的意义。
逻辑回归(LR)是分类的重要方法之一。标准逻辑回归使用Logistical损失,通过输入变量的系数加权线性组合来分类。逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,提升了与分类最相关的数据点的权重,相较于支持向量机,自某一给定的类上,标准逻辑回归能给出相应的类分布估计,并且在模型训练时间上也占很大优势。逻辑回归相对来说模型更简单、好理解,针对大规模线性分类时实现起来比较方便。此外,标准逻辑回归比支持向量机更容易扩展到多类分类。一些针对逻辑回归的改进算法例如:稀疏逻辑回归、加权逻辑回归等都在相应领域取得较好的效果。
然而逻辑回归只能用于二分类问题,不能直接应用于多类别(类别k2)分类问题。为了用逻辑回归解决多分类问题,通常有两类逻辑回归扩展方式,一类是建立k个独立的二元分类器,每个分类器将一类样本标记为正样本,将所有其他类别的样本标记为负样本。针对给定测试样本,每个分类器都可以得到该测试样本属于这一类的概率,因此可以通过取最大类别概率来进行多分类。另外一类则被称作多元逻辑回归(Multinomial LogisticRegression,MLR),它是逻辑回归模型在多分类问题上的推广。具体选取哪种方法处理多分类问题通常取决于待分类类别之间是否互斥。对于多分类问题来说,类别之间通常是互斥的。因此,使用多元逻辑回归相较于逻辑回归通常能得到更好的结果。同时,多元逻辑回归只需要训练一次即可,因此它也具有较快的运行速度。
在计算机信息处理领域,文本数据集通常含有较多的共同信息,这些共同信息大大增加了识别的复杂度与识别误差,多元逻辑回归虽然训练多组参数用以针对每个类别计算出相应的概率,然而并没有考虑各组参数之间是否相关的问题。因此一种基于极大无关的多元逻辑回归文本情感分类方法的实现具有一定的现实意义。
发明内容
为了解决上述技术问题,本发明提供了一种基于极大无关多元逻辑回归的文本情感分类方法,所述方法包括:
获取文本数据,并对所述文本数据进行预处理;所述文本数据包括训练数据和待预测数据;所述待预测数据包括多个文本条目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810332338.5/2.html,转载请声明来源钻瓜专利网。