[发明专利]情感词汇的识别方法及装置有效
申请号: | 201611199221.1 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106776566B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 王伟 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 刘喆;刘铁生 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 词汇 识别 方法 装置 | ||
本发明公开了一种情感词汇的识别方法及装置,涉及网络技术领域,可以根据文本信息的情感倾向性,所述方法包括:对所述文本信息进行正负向情感标记,以及对所述文本信息进行分词处理,得到多个情感候选词汇;根据所述文本信息的正负向情感标记结果和卡方统计特征选择算法,从所述多个情感候选词汇中统计得到词汇卡方值大于或等于预设阈值的第一情感词汇候选集合;根据所述文本信息的正负向情感标记结果和逻辑回归分类算法,计算所述第一情感词汇候选集合中每个情感候选词汇对应的情感倾向强度值;将所述第一情感词汇候选集合中情感倾向强度值大于或等于预设强度阈值的情感候选词汇,确定为所述文本信息中存在的情感词汇。
技术领域
本发明涉及一种信息识别技术领域,特别是涉及一种情感词汇的识别方法及装置。
背景技术
随着网络技术的蓬勃发展,互联网已经越来越成为现代社会各种信息的载体,并逐渐倡导“以用户为中心,用户参与”的开放式架构理念。互联网上产生了大量包含用户评论的文本信息,这些文本信息表达了用户的各种情感色彩和情感倾向性,例如喜、怒、哀、乐和批评、赞扬等。进而潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法或情感倾向。
为了对包含用户评论的文本信息进行有效的分析,需要从文本信息中识别出存在的情感词汇,目前可以预先选出一组情感种子集合,再将文本信息进行分词处理得到候选词汇,然后计算候选词汇与情感种子集合之间的相关度来判断候选词汇的情感倾向,进而识别出文本信息中存在的情感词汇。
然而,上述方法的识别结果很大程度上依赖情感种子集合的质量,需要预先收集大量的情感种子词,工作量较大,会造成情感词汇识别的成本较高,并且如果情感种子词选择的不合适,还会影响情感词汇识别的准确性。
发明内容
有鉴于此,本发明提供了一种情感词汇的识别方法及装置,主要目的在于可以准确的识别出文本信息中存在的情感词汇。
依据本发明一个方面,提供了一种情感词汇的识别方法,该方法包括:
根据文本信息的情感倾向性,对所述文本信息进行正负向情感标记,以及对所述文本信息进行分词处理,得到多个情感候选词汇;
根据所述文本信息的正负向情感标记结果和卡方统计特征选择算法,从所述多个情感候选词汇中统计得到词汇卡方值大于或等于预设阈值的第一情感词汇候选集合;
根据所述文本信息的正负向情感标记结果和逻辑回归分类算法,计算所述第一情感词汇候选集合中每个情感候选词汇对应的情感倾向强度值;
将所述第一情感词汇候选集合中情感倾向强度值大于或等于预设强度阈值的情感候选词汇,确定为所述文本信息中存在的情感词汇。
具体地,所述根据所述文本信息的正负向情感标记结果和逻辑回归分类算法,计算所述第一情感词汇候选集合中每个情感候选词汇对应的情感倾向强度值,具体包括:
计算所述第一情感词汇候选集合中情感候选词汇的tf-idf值,作为所述情感候选词汇的特征值;
以所述情感候选词汇的特征值和所述文本信息的正负向情感标记结果作为计算参数,根据逻辑回归分类算法,计算所述第一情感词汇候选集合中每个情感候选词汇对应的情感倾向强度值。
进一步地,所述方法还包括:
根据所述文本信息的正负向情感标记结果和卡方统计特征选择算法,从所述多个情感候选词汇中统计得到词汇卡方值小于所述预设阈值的第二情感词汇候选集合;
利用知网的相似度计算方法,计算所述第二情感词汇候选集合中每个情感候选词汇对应的情感倾向强度值;
将所述第二情感词汇候选集合中情感倾向强度值大于或等于预设强度阈值的情感候选词汇,确定为所述文本信息中存在的情感词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199221.1/2.html,转载请声明来源钻瓜专利网。