[发明专利]互联网多种情感词典构建方法及系统在审
申请号: | 201310470531.2 | 申请日: | 2013-10-10 |
公开(公告)号: | CN103544246A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 刘奕群;马少平;张敏;金奕江;张阔 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市鼎言知识产权代理有限公司 44311 | 代理人: | 徐丽昕 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 多种 情感 词典 构建 方法 系统 | ||
技术领域
本发明涉及网络信息智能处理领域,特别是涉及利用互联网文本中表现出的情感情绪来构造情感词典的方法及系统。
背景技术
随着互联网的发展,社会媒体大量涌现。社会媒体以互联网为媒介,为用户提供分享意见、经验的交流平台,汇集了大量的用户所产生内容,直接反映人们的情绪、观点及兴趣爱好。社会媒体中的文本内容包括博客、微博客、论坛讨论、产品评论等,是用户表达个人情感的载体,对社会舆情、品牌声誉、产品评价等有很大影响。因此,针对这些媒体的文本情感分析技术成为近年的热点问题。文本情感分析这项计算机技术,是对一段文本所表达的情感倾向进行识别。理论上人在文本中的情感表达是十分复杂的,除了肯定(褒)与反对(贬)外,还可能表达喜悦、愤怒、悲哀、恐惧、惊讶等情绪。但目前计算语言学的相关研究一般将情感倾向划分为褒义和贬义,有时也包括中性或混合等等。这种程度的简化在一定程度上可满足人们的需要,具有广阔的应用前景。
因此,识别文本中体现的用户情感,成为网络信息领域中的一项关键技术,在商业、政治、社会事件中起到重要作用。例如,在电子商务网站的产品评论中,通过自动识别出消费者对产品、甚至对产品的每个属性是赞赏还是批评,可以影响其他消费者做出适合自己的购买行为,也可使产品制造商发现产品的优势和不足,以促进其改进;电影评论网站,观影者对电影的剧情、演员、摄影等各个因素给出评价,如用自动方法识别出其褒贬倾向,则可对一部电影的观众反映作出全面的了解;商业中,群体用户对某一品牌或商品评价形成的口碑,是商家重视的用户信息之一,用户口口相传的评价,会对商家的声誉造成影响,商家则可以通过在互联网媒体中进行营销,扩大产品的影响,诱导用户的消费行为;通过捕捉微博中与某一行业相关的热门话题,分析其情感趋势,可对股票的走势进行预测;在许多政治事件中,网民利用互联网作为信息传递和消息发布的平台,如许多国家选举时的选民倾向、不同阵营均在微博中有所反映,因此研究者利用相关的微博进行事先预测或事后分析,探讨网络民意对选举的影响。
社会媒体文本与传统媒体文本的突出不同就是语言不规范、用词自由。传统的自然语言处理方法通常对文本进行语法分析,依赖于语言学知识。但对于社会媒体文本,由于其文本表达未必规范、合乎语法,传统分析方法的准确性大大降低。又如一些用户造出的新词,是传统的词典里所没有的(即“未登录词”),或者词语含义发生很大变化,这使得传统方法的应用受到很大限制。
文本情感分析的识别结果通常是褒义、贬义等类别,因此文本情感分析可以采用机器学习的方法,作为分类任务完成。在前述商品评论或电影评论网站中,用户在评论的同时通常配有评分,此分数可作为评论文本情感程度的打分,即对评论文本的标注,因此这些评论及评分可以作为训练语料,用于有监督机器学习过程。这些方法均以词汇(一元组)作为特征,结合分类器(如朴素贝叶斯模型、最大熵模型、支持向量机模型等)完成有监督的训练和测试。如果缺乏充足的训练语料,有监督学习方法则失去了用武之地。对于微博这种数量庞大的互联网文本,采用人工只能标注很少的微博文本,其适用领域与规模受到限制。仿照评论网站的打分分值作为分类标签,在微博中可以假设文本中的表情符号(如笑脸符“:-)”或哭脸符“:-(”)表示其情感倾向,即用该符号的出现作为分类标签进行训练。但这些表情符号作为分类标签往往存在噪声,而且受到符号变形、种类的限制。因此,基于有监督学习的情感分类受到很大制约,而基于情感词典的无监督学习方法仍然起到举足轻重的作用。
情感词典是指一个包含情感词语及其情感倾向的词典。这些情感词语通常以形容词为主,在文字中表达明确的情感倾向,例如“好”、“坏”;“高兴”、“悲伤”等。在现实中,人工构建情感词典受到成本和规模的限制,不适于推广。而从文本语料中,可以利用文本的特点自动构建情感词典。这种自动方式通常从一个小规模的情感词种子集(或规则)出发,之后利用词语间的相互联系,逐渐扩大集合,计算出更多的词语的情感倾向。自动构建情感词典的过程主要面临如下问题:
候选情感词的选取:情感词多数是形容词,因此通常只将形容词作为候选的情感词。对于稍复杂的情形,则可利用规则提取出更丰富的情感词或情感短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310470531.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于减少NOx排放的燃烧器组件和方法
- 下一篇:洗衣液组合物