[发明专利]将词典知识合并入SVM学习以改进情感分类有效

专利信息
申请号: 201210130002.3 申请日: 2012-04-20
公开(公告)号: CN102760153B 公开(公告)日: 2017-12-05
发明(设计)人: J·方;B·陈 申请(专利权)人: 帕洛阿尔托研究中心公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国专利代理(香港)有限公司72001 代理人: 方世栋,王忠忠
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词典 知识 并入 svm 学习 改进 情感 分类
【说明书】:

技术领域

本申请目的在于自动的分类,并且更特别地目的在于自动的情感 分类,其中情感分类被理解为是特定类型的文本分类,其用作分类信 息(诸如以文本的形式)的意见或情感,当其涉及特定的论题或主题 时。

背景技术

两种典型的用于情感分析的方法是词典查找和机器学习。词典查 找方法通常从正面的和负面的单词的词典开始。例如,“漂亮的”被 确认为正面的单词并且“丑陋的”被确认为负面的单词。文本的总的 情感由一组单词的情感和在所述文本中出现的表达确定。

综合性的情感词典可以提供简单然而有效的用于情感分析的解 决方案,因为其是普通的并且不需要预先的训练。因此,已经花费关 注和努力用于构建这样的词典。然而,对该方法的重大的挑战是:许 多单词的极性依赖于领域和上下文。例如,“长”在“长的电池寿命” 中是正面的并且在“长的快门迟滞”中是负面的。当前的情感词典不 捕获情感表达的这样的领域和上下文敏感性。它们排除这样的领域和 上下文依赖的情感表达或者基于从某个语料库(corpus)(诸如通过 因特网而被访问的万维网)收集的统计资料而用总的极性趋势标记它 们。虽然排除这样的表达导致差的覆盖范围,用极性趋势简单地标记 它们导致差的精度。

由于这些限制,机器学习方法已经正在情感分析的领域中得到日 益增加的普及。诸如使用支持向量机(SVM)的那些机器学习方法不 依靠情感词典以确定单词和表达的极性,并且可以自动地学习一些在 训练数据中示出的上下文相关性。例如,如果“长的电池寿命”和“长 的快门迟滞”在所述训练数据中分别被标记为正面的和负面的,学习 算法可以学会:当其与短语“电池寿命”相关联时“长”是正面的, 而当与短语‘快门迟滞’相关联时其是负面的。

然而,这样的方法的成功严重地依赖所述训练数据。对于情感分 析的任务,由于自然语言的丰富,数据不足是不能被容易地解决的固 有问题。特别地,人们倾向于使用不同的表达来表示相同的情感,并 且也倾向于在相同的句子或文件中不重复他们的情感。因此,收集足 够表示人们如何对于各种主题表达情感的训练数据是非常困难的。与 一些其它文本分类任务相比,该数据不足问题已经导致了对情感分类 的相对低的准确度。

因此,尽管最近的研究已经显示对于情感分析的任务,机器学习 方法通常优于所述词典查找方法,忽视由情感词典提供的优势和知识 可能不是最优的。

然而,少数研究已经致力于将这两种方法相结合以改进情感分 类。一些已经探索使用通用情感词典以改进短语的上下文极性的识 别。一些其它最近的研究已显示:将通用情感词典合并到机器学习算 法中可以改进在文件级别上的情感分类的准确度。在所有这些工作 中,通用情感词典包含具有独立于上下文/领域的极性的单词。本情感 分类器系统和方法不同于这些以前的方法。

发明内容

用于内容的情感分类的情感分类器。方面分类器被配置为将内容 分类为与信息的特定方面相关,所述方面分类器合并所述领域特定情 感词典的至少一部分。极性分类器随后被配置为将由所述方面分类器 分类的内容分类为具有下列之一:信息的特定方面的正面的情感、信 息的特定方面的负面的情感,或者将其分类为不具有关于信息的特定 方面的情感。所述极性分类器也合并所述领域特定情感词典的至少一 部分。

附图说明

图1示出了具有两个子词典的名称词典,包括主题子词典和情感 子词典;

图2示出了根据本申请的呈现语料库过滤的方法的流程图;

图3示出了显示用于使用语言模式进行网络(web)搜索和过滤 的处理的流程图;

图4是显示由图3的方法识别的一些噪声单词的图;

图5是示出了将极性提供给领域特定词典的单词和/或短语的方 法的流程图;

图6提供了示出具有方面分类器和极性分类器的情感分类器的 框图;

图7是描绘了图6的所述情感分类器的操作的流程图;

图8是显示了属于类的点之间的距离的例图;

图9描绘了在领域特定词典的创建的过程期间本申请的系统;

图10描绘了在当所述情感分类器正在被训练时的过程期间的本 系统的结构;以及

图11描绘了当所述情感分类器正在工作时本系统的结构。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于帕洛阿尔托研究中心公司,未经帕洛阿尔托研究中心公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210130002.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top