[发明专利]一种网络文本的多重情感分类方法在审
申请号: | 201710127661.4 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106951472A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 贺惠新;贺曦婷;李亮 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 厦门市首创君合专利事务所有限公司35204 | 代理人: | 张松亭,杨锴 |
地址: | 362000*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 文本 多重 情感 分类 方法 | ||
技术领域
本发明涉及自然语言处理的计算机技术应用领域,更具体地说,涉及一种网络文本的多重情感分类方法。
背景技术
人类的语言由个人主体意识产生及影响,是带有情感指向的意思表达。
在网络和信息时代,由人参与的活动/行为就在网络上形成了不同的记录信息,而这些信息又绝大多数是以自然语言的句子这种文本形式表达的,形成了文本信息的爆炸。从文本中自动分析出情感倾向可用于许多行业,可应用于实现情感机器人,提供抉择支持、网络舆情风险分析等。
情感分析自从2002年由Bo Pang提出之后,获得了很大程度的关注和研究,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,而文本中情感转移现象经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展不大。
情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,并没有公认的标准加以确认。目前研究和应用主要集中于情感词的正面负面分类,标注语料,情感词的提取等,绝大多数技术都基于二元情感做分析,即是正面和负面的分析,而人类的情感是多层次和多类别的,这样的细粒度情感的分析,当前技术少有涉及。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能够有效地对网络文本进行情感分析的网络文本的多重情感分类方法。
本发明的技术方案如下:
一种网络文本的多重情感分类方法,训练得到不同情感类型的分类模型,清除待分类文本的用户名及命名实体,提取待分类文本的情感特征;将得到的情感特征分别输入所有的分类模型,将输出的结果按顺序归结为一个N维矢量Rt,将输出的结果的置信度按顺序归结为一个N维矢量PRt,N为分类模型的数量;根据公式Rst=0.5*sgn(PRt*Rt-0.65*In)+0.5,其中,In为N维矢量{1,1,…,1};得到的N维矢量Rst中的每个维度的值即为对应的情感类型的有无。
作为优选,训练分类模型的步骤如下:
1.1)获取已标记情感类型的NS个句子的集合S={S(i)}为训练语料,其中,1≤i≤NS;
1.2)删除训练语料的所有句子中的用户名及命名实体,进行特征化表示,得到每个句子抽取后的特征F={f1,f2,f3,…,fn},并对每个特征f3,…,fn进行情感类型标注为对应的label标识,其中,f1为训练语料中的一个句子包含的中英文字符数目,f2为训练语料中的一个句子是否包含特殊符号的标志值,fn为训练语料中的一个句子是否包含否定词的标志值;
1.3)将特征F与每个特征对应的情感类型作为分类模型的学习样本,分别针对各个情感类型训练对应的分类模型。
作为优选,步骤1.3)具体为:以label标识对应的情感类型的学习样本作为训练该情感类型的正例样本,则正例样本的类别标识置1,其他样本作为训练的反例样本,反例样本的类别标识置0,选择支持向量机作为分类模型进行训练,并对学习样本进行类平衡处理,得到该情感类型的分类模型。
作为优选,步骤1.2)中删除用户名的方法为:通过正则表达式对“@[/s/S]*”样式的文本进行处理;删除命名实体的方法为:利用分词工具进行命名实体识别,然后进行删除。
作为优选,步骤1.2)中,提取特征F的方法如下:
f1:利用正则表达式“[^a-zA-Z/u4e00-/u9fa5]”将句子清除至只包含中文及英文字符,并统计中英文字符数目,作为特征f1的值;
f2:统计未进行清除的句子中是否包含特殊符号,并通过布尔值(0,1)表示,如果特殊符号存在,则f2=1,如果特殊符号不存在,则f2=0;
f3至f(n-1):分别对应一类情感类型,通过布尔值(0,1)表示,对已清除的句子进行分词后,计算分词结果是否含有对应情感类型的情感词,如果存在,则将该情感类型对应的特征置1,反之则置0;
fn:对应否定词特征,通过布尔值(0,1)表示,如果已清除的句子中包含否定词,则fn=1,如果否定词不存在,则fn=0。
作为优选,获取包括各个情感类型的情感词的情感词典、同义词词典、否定词典、停用词词典、无标注情感类型的扩充语料;通过同义词词典对情感词典进行扩充;通过对扩充语料进行分类,并对情感词典进行扩充。
作为优选,如果扩充语料为微博语料,则进行如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710127661.4/2.html,转载请声明来源钻瓜专利网。