[发明专利]基于多源领域实例迁移的情感分类方法有效
申请号: | 201410032866.0 | 申请日: | 2014-01-23 |
公开(公告)号: | CN103761311B | 公开(公告)日: | 2016-11-02 |
发明(设计)人: | 张倩;李海港;张勇 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 淮安市科翔专利商标事务所 32110 | 代理人: | 韩晓斌 |
地址: | 221008 江苏省徐州市解放南路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。 | ||
搜索关键词: | 基于 领域 实例 迁移 情感 分类 方法 | ||
【主权项】:
一种基于多源领域实例迁移的情感分类方法,其特征是,包括以下步骤:步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象;步骤1.1),初始化权矢量
其中
为第k个源领域训练样本的权矢量,
为目标领域训练样本的权矢量;步骤1.2),从第一次迭代开始,计算源领域训练样本总权重,设
其中
为全部源领域训练样本个数,
为第k个源领域训练集包含样本数量;步骤1.3),清空候选弱分类器集合,将权矢量
归一化;步骤2),调用基分类器在每一个训练集训练得到一个弱分类器,将所有弱分类器组成弱分类器集,分别计算每个弱分类器在目标训练集上的误差,根据测试误差对每个弱分类器加相应的权重,由于正确率高的分类器对应的源领域包含对目标任务有用的信息多,对目标任务的学习帮助大,所以误差大的分类器设置权重小,误差小的分类器设置权重大;步骤2.1),调用基分类器在每一个源训练集训练得到一个弱分类器
步骤2.2),计算弱分类器
在目标领域Db上的误差,其计算公式为
其中,
表示候选弱分类器分类错误,
表示对N个源领域求和;步骤2.3),根据弱分类器
在目标领域Db上的误差大小更新弱分类器
的权重,其计算公式为
循环往复,直到遍历N个源领域;步骤3),将加权后的弱分类器集成得到当前第t次迭代的候选分类器
然后计算候选分类器
在目标训练集和不同源领域训练集上的误差,并加入动态因子Ct,更新源领域样本的权重,对于分类正确的源领域样本权重不变,分类错误的源样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;步骤3.1),得到第t次迭代的候选分类器
其计算公式为
步骤3.2),计算候选分类器
在目标领域Db上的误差率
其计算公式为
步骤3.3),计算分类器
的权重
其计算公式为
其中
的大小为![]()
越小,则目标分类误差越小,表明与目标领域的相关度越高,将多次迭代的基分类器组合成目标分类器,源领域中的有用知识就会逐渐迁移到目标领域中;步骤3.4),计算出动态因子Ct的值,其计算公式为
步骤3.5),更新源样本权矢量和目标样本权矢量;步骤4),经迭代达到最大次数M次后输出最终强分类器
如果没有达到最大迭代次数则重新从矢量归一化开始。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410032866.0/,转载请声明来源钻瓜专利网。
- 上一篇:硅麦克风的测试装置
- 下一篇:纺丝箱用节能式纺丝模头