[发明专利]基于多源领域实例迁移的情感分类方法有效
申请号: | 201410032866.0 | 申请日: | 2014-01-23 |
公开(公告)号: | CN103761311B | 公开(公告)日: | 2016-11-02 |
发明(设计)人: | 张倩;李海港;张勇 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 淮安市科翔专利商标事务所 32110 | 代理人: | 韩晓斌 |
地址: | 221008 江苏省徐州市解放南路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 实例 迁移 情感 分类 方法 | ||
技术领域
本发明涉及一种基于多源领域实例迁移的情感分类方法。
背景技术
迁移学习根据不同任务间的相似性,将源领域数据向目标领域迁移,实现对已有知识的利用,使传统的从零开始学习变成可积累的学习,并且提高了学习效率,其最大的特点就是利用相关领域的知识来帮助完成目标领域的学习任务。源领域和目标领域中相关知识的表达方式有很多,可分为样本实例、特征映射、模型参数和关联规则,针对不同的知识表达方式选择恰当的迁移学习方法是保障目标领域学习的前提。
对于知识表达为样本实例的研究,重在对源领域中的数据进行加权选择,然后将胜出部分数据用于目标任务的学习过程中。其基本思想是,尽管辅助训练样本和源领域中的训练样本会有些不同,但是辅助训练样本中应该还是会存在一部分比较适合用来训练一个有效的分类模型的样本。假设源领域中存在一部分实例是可以被重新利用的,这些实例可以帮助目标任务的学习。通常,重新利用这一部分实例的方法是对实例权重进行重新加权,权重大的实例对新任务的学习影响相对较大,从而有效促进新任务的学习。
其中最典型的算法当属2007年的会议“24th International Conference on Machine Learning”上发表的文章《Boosting for transfer learning》中提到的TrAdaBoost,该算法利用Boosting技术建立一种自动调整权重的机制。在每一次迭代中,针对源数据和目标数据分别进行不同的权重调整机制:(1)如果一个源样本被错误分类,就降低这个样本的权重。这样,在下一次迭代中,该样本对分类模型的影响就会降低。经过若干轮迭代之后,源数据中与目标数据相似度偏低的数据就会拥有相对更高的权重,而那些与目标数据相似的数据权重将会降低。(2)如果一个目标样本被错误分类,则增加这个样本的权重,用来强调这个样本,使得该样本在下一次迭代中被错分的概率减小。此外,TrAdaBoost方法被扩展为许多迁移学习方法,例如2009年的会议“IEEE International Conference on Data Mining Workshops”上发表的文章《Set-based boosting for instance-level transfer》一文中提到的TransferBoost方法,在可以得到多个源任务的情况下采用推进方法,它可以提升所有源样本矢量,这些样本均来自具有正迁移性的任务中。TransferBoost对计算每个源任务的整体迁移,作为仅含目标的任务和加入源任务的目标任务之间误差的不同。2010年的会议“International Workshop on Handling Concept Drift in Adaptive Information Systems”上发表的文章《Cost-sensitive boosting for concept drift》中提到的概念漂移,利用AdaCost,则固定代价成为源矢量更新的一部分。利用可能性估计作为测量源分布和目标分布相关性的方法,这个代价能预先计算得到。另外,中国专利说明书CN201110452050.X公开的非平衡样本分类的集成迁移学习方法,利用已有旧数据的分类规律找出近似分布的新数据的分类规律,尤其是针对分类不平衡数据的分类问题提供了新的方法,保证了分类中数量少的负样本在分类训练中的作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410032866.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硅麦克风的测试装置
- 下一篇:纺丝箱用节能式纺丝模头