[发明专利]一种词汇语义褒贬获得方法、系统及装置有效
申请号: | 200710099802.2 | 申请日: | 2007-05-30 |
公开(公告)号: | CN101315625A | 公开(公告)日: | 2008-12-03 |
发明(设计)人: | 路斌;万小军;杨建武;吴於茜;陈晓鸥 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 李娟 |
地址: | 100871北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词汇 语义 褒贬 获得 方法 系统 装置 | ||
技术领域
本发明涉及智能信息处理技术领域,尤其涉及一种词汇语义褒贬获得方法、系统及装置。
背景技术
日益活跃的网络群体在互联网上留下了大量的评论信息,这些评论信息包括新闻、论坛、Email和个人博客(blog)等。对于这些评论信息的情感分析无疑能够提供大量有价值的信息。而文本情感分析是指通过计算机技术,自动分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、愤怒和恐惧等。情感分析有着众多的潜在应用领域:在商业领域,可以帮助企业进行市场分析和调查、顾客反馈等;在政治领域,可以帮助政府部门了解群众对于政策法规的反馈意见。
与传统的人工处理方式相比,通过计算机自动提取文档中的情感因素是一种新的实时分析信息的方法。它可以高效处理非结构化的文本数据,从而应对互联网上日益泛滥的海量数据。其中,词汇语义褒贬分析是文本情感分析研究的基础。词汇语义褒贬分析任务是试图理解一个词汇的情感语义属性及其强度因子。
目前,一种对于词汇语义褒贬分析的研究方法为统计方法,利用文档集中词汇间的共现关系来计算词汇语义褒贬。现有的基于搜索引擎的词汇语义褒贬获得方法中,采用基于搜索引擎AND(和)关系的PMI-IR(Pairwise MutualInformation,点间互信息)技术,如图1所示,其步骤可以概括如下:
步骤S101,选定褒义和贬义种子词汇集合PWords和NWords,并通过向搜索引擎发送查询请求,记录每个种子词汇Wi(i为不大于Q的正整数,Q为PWords和NWords的总个数)的命中数Hits(Wi);
步骤S102,读入一个需要计算的词汇A,向搜索引擎发送查询请求“A”,并结合每个种子词汇Wi向搜索引擎发送查询请求“A Wi”;
步骤S103,读取搜索引擎返回的对“A”和“A Wi”的查询结果,从中分析出命中数Hits(A)以及每个种子词汇对应的Hits(A,Wi);
步骤S104,根据Hits(A)、Hits(A,Wi)、Hits(Wi),计算A和每个Wi的点间互信息PMI(A,Wi);
在本步骤中,可以采用公式(1)进行计算:
其中,N表示搜索引擎索引的总文档数量。
步骤S105,用A与PWords中词汇的点间互信息之和,减去A与NWords中词汇的点间互信息之和得到V(A);
步骤S106,判断V(A)是否大于褒贬阈值T,如果是,则标注A的词义为褒义,否则标注A的词义为贬义,其中,V(A)减去T的绝对值可以认为是语义褒贬的强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学,未经北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099802.2/2.html,转载请声明来源钻瓜专利网。