[发明专利]一种基于深度学习和特征融合的文本情感分类方法在审
申请号: | 201911003328.8 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110750648A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 李传艺;葛季栋;孔力;冯奕;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档特征 文本情感分类 词向量 文档 向量 拼接 句子 学习 随机森林分类器 神经网络模型 神经网络学习 层次特征 基础模型 情感类别 特征融合 文本表示 向量表示 向量序列 情感词 神经网 字序列 采样 词性 段尾 整合 表情 文本 上层 预测 优化 | ||
本发明提出一种基于深度学习和特征融合的文本情感分类方法,该方法通过整合层次特征学习文本表示,包括:根据文本极性及否定词,为情感词设计不同环境的向量表示;为词性采样得到向量区分同形词;结合表情符优化词向量,使用神经网络模型学习基于词向量的单句特征;通过字序列学习基于字向量的单句特征;两部分拼接得到句子级特征;对于至少包含两个单句的文档,句向量序列输入到上层神经网络学习基于神经网的文档特征,并对段首、段尾和包含总结词的句子取平均获得基于规则的文档特征,两部分拼接获得文档级特征。针对具体任务,将单句或文档特征输入随机森林分类器即可预测情感类别。与基础模型相比,本发明能够有效提高文本情感分类的准确性。
技术领域
本发明涉及一种情感分类方法,具体涉及一种基于深度学习和特征融合的文本情感分类方法,属于自然语言处理技术领域。
背景技术
文本情感分析旨在从无结构的文本中自动地识别带有主观色彩的文本,可以应用到社会媒体分析、自动机器问答等领域。随着互联网的发展和社交媒体(例如微博、Twitter、Facebook、IMDB)的兴起,越来越多的用户由信息的接收者逐渐转化为信息的贡献者,互联网上带有主观色彩的文本急剧增长。这些海量的用户生成文本为分析用户的情感提供了极为便利的平台,同时也为文本情感分析带来了诸多挑战。文本情感分析的意义可以概括如下:
文本情感分析可以促进人工智能、社会计算等相关领域的发展:在人工智能领域,计算机是否能够理解和具有人类的情感仍然未知,对这个问题的研究将是对人工智能领域的有力补充,也必将推动人工智能的发展。由于分析文本情感可以观察大规模用户的情感倾向及演变,因此可为社会学、传播学、语言学、管理学等社会科学提供实证基础。
文本情感分析有利于大众与政府的沟通:以往政府了解民情需要通过问卷调查等传统方式,在覆盖面、真实性和效率方面都有欠缺。社交媒体出现以后,通过对社交媒体文本的情感分析,政府部分可以很方便地收集到广大民众对政策法规的态度,为改进政府工作和预防公众不满情绪提供决策依据。
文本情感分析可以为生产者和消费者之间的连接提供技术支持:在电子商务领域,用户对商家的褒贬评价成为商家信誉最重要的标志,决定着商家的命运。文本情感分析技术可以为商家更好的分析和汇总用户对产品的反馈意见,为产品的改进优化提供有力的依据。
情感分类是情感分析领域中一个重要的子问题,诸多研究表明,情感分类的性能很大程度上取决于文本的特征好坏。数十年来,人们通常使用人工编辑的特征模板把原始数据转换为适合机器学习算法使用的特征表示,虽然这样的手段可以在一定程度上利用人的先验知识,但特征模板的设计和选择通常费时费力,而且严重依赖领域专家的知识。而且特征模板依赖于文本主题、很难直接地进行领域移植(例如,从法律领域扩展到电商领域)或跨语言移植(例如,从英文扩展到中文)。另外,传统的离散特征通常维度较高,在这样稀疏的0/1特征表示下很难完成文本的语义组合和语义理解。
因此,目前亟需要研究一种自动化的方法从大规模数据中学习文本的语义表示,以便更好地服务于情感分类任务。基于功能强大的神经网络模型,并结合使用丰富的多种文本特征(例如,词性、表情符、词语极性),是自动学习数据表示的有效方法。
神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。在自然语言处理领域,算法自动地从数据中学习数据的表示的方法通常被称作表示学习。表示学习的目的在于从数据中自动地学习文本(如词语、句子、篇章)的语义表示,这种表示可以在机器学习算法的框架下作为特征应用于多样的自然语言处理任务(如抽取、识别)当中。因此,本发明以神经网络为基础,融合多种任务相关特征,着重研究了一种基于深度学习和特征融合的文本情感分类方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911003328.8/2.html,转载请声明来源钻瓜专利网。