[发明专利]一种基于松散条件下协同学习的中文微博情感分析方法有效
申请号: | 201810091745.1 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108228569B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 李玉强;孙念;黎威威 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/253;G06F40/284;G06F16/35 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 松散 条件下 协同 学习 中文 情感 分析 方法 | ||
本发明涉及一种基于松散条件下协同学习的中文微博情感分析方法,包括:(1)构建初始已标注微博数据集L和未标注微博数据集U;(2)对已标注数据集L和未标注数据集U进行特征提取;(3)构造SVM分类器C1和LSTM分类器C2,利用已标注数据集L对C1、C2分别进行训练;(4)利用训练好的两个分类模型对未标注数据集U进行预测;(5)选择未标注样本加入到训练集,以修正分类模型。本发明的优点在于充分考虑了文本中不确定性和置信度这些信息量,从而能选取对两个分类模型最有帮助的样本数据进行人工标注以减少噪声样本的引入;并且分别从词法信息要素的角度和文本上下文相关的语法角度来构造协同学习的框架,提高分类的准确率。
技术领域
本发明属于文本情感分析技术领域,尤其涉及一种基于松散条件下协同学习的微博情感分析方法。
背景技术
伴随着Web2.0时代的飞速发展,互联网上出现了大量带有情感色彩的文字,微博作为一种以社交方式搭建的平台为大众所接受,且成为信息传播、舆情监控的重要平台。通过对微博情感信息的分析,可以及时掌握用户的态度,这是掌握网络舆情的一个重要手段途径。微博情感分析主要是利用用户发布的微博数据对用户情感倾向加以分析和挖掘,识别出用户发布的文本情感极性,如高兴、悲伤、中立等。
在实际分类问题中,能够使用的已标注样本数据少之又少,多数学者选择通过利用未标注数据来解决这个问题,利用未标注数据的主流学习技术分为三种:半监督学习、主动学习和直推学习。半监督学习方法是目前最受国内外学者欢迎的基于机器学习的方法,它采取综合少量已标注样本和大量未标注样本来提高学习性能的机器学习方法,兼顾了人工标注成本和学习效果,被视为监督学习和无监督学习的一种折中方案。在最早的协同学习算法被提出后,很多研究者对其进行了研究并取得了很多进展,使得协同学习成为半监督学习中最重要的风范。
主动学习的思想是,在训练过程中,从未标记样本中找出含有较多分类信息的样本,优先标注这些样本,从而让分类系统获得较大的信息增益。主动学习算法的样本数据选择策略是一大研究热点。按照获取样本的工作方式不同可将现有的样本选择策略分为基于流和基于池的策略。在基于流的选择策略中,未标注的样本以数据流的方式逐个提交给学习者,由学习者实时决定是否需要标注当前提交的样本;而在基于池的选择策略中,学习者根据样本选择策略从一个含有未标注样本的历史数据池中选择当前需要标注的样本。但是目前的研究主要是针对单一的选择策略,没有考虑利用文本中的其他信息量,例如置信度。
Blum等提出的协同学习算法,基于这样的强假设:特征充分且冗余,即满足下列条件的两个特征集:1)一致性,每一个特征集都包含足够的分类信息进行分类学习且分类器的目标函数在每个特征集上都能够训练出一个强分类模型;2)独立性,两个特征集相互条件独立。在特征充分和冗余的情况下,可将其进行自然分裂或合理地划分,此时,协同学习要优于其他半监督学习。但是,在大多数情况下,特征充分冗余的要求往往很难得到满足,所以研究者试图寻找协同学习的变种,来降低这一要求。
发明内容
鉴于现有的主动学习样本选择策略单一的问题,围绕半监督学习算法中的协同学习算法,提出利用主动学习的思想对协同学习的自标注样本进行选择,采用不确定性选择策略与最高置信度选择策略相结合的方法选择样本数据加入到训练数据集中,以充分利用样本的信息量。并在此基础上,针对协同学习算法中,充分冗余的特征视图难以满足的这一问题,提出一种基于SVM算法和LSTM算法的松散条件下的协同学习算法模型,来提高中文微博的情感分类的准确率。
一种基于松散条件下协同学习的中文微博情感分析方法,其特征在于,包括如下步骤:
步骤1、构建初始已标注微博数据集L和未标注微博数据集U,具体是:从NLP&CC提供的中文微博情感标注语料集得到L+P+Q+W条已标注微博,并从从已标注微博语料集中随机选取M条积极微博和N条消极微博作为训练集L,再选取P条积极微博和Q条消极微博作为测试集,剩下的W的条已标注微博作为不确定性样本数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091745.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数学题目语义理解方法
- 下一篇:一种基于实体突发特征的文本表示方法