[发明专利]一种基于支持向量机的情感分类方法在审

专利信息
申请号: 201610871431.4 申请日: 2016-09-30
公开(公告)号: CN106407449A 公开(公告)日: 2017-02-15
发明(设计)人: 王欣;钟吉英;贾建民;赵亮;谭斌;于成业;郝妙;赵海臣 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62
代理公司: 四川省成都市天策商标专利事务所51213 代理人: 秦华云
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于支持向量机的情感分类方法,包括情感分类系统,所述情感分类系统包括依次通信连接的爬虫模块CPM、特征词及训练样本生成模块TGM、SVM分类模块和可视化模块VM,所述特征词及训练样本生成模块TGM包括特征词提取模块和训练样本选取模块;采用情感分类系统的情感分类方法如下A、爬虫模块CPM数据采集站点数据;B、特征词及训练样本生成模块TGM对数据库中的特征词和训练样本选取;C、SVM分类模块分类;D、可视化模块VM将分析结果在Web端进行展现。本发明能够准确地对用户在微博、论坛所发表的评论信息根据用户的情感进行分类,进而发现舆情状况。
搜索关键词: 一种 基于 支持 向量 情感 分类 方法
【主权项】:
一种基于支持向量机的情感分类方法,其特征在于:包括情感分类系统,所述情感分类系统包括依次通信连接的爬虫模块CPM、特征词及训练样本生成模块TGM、SVM分类模块和可视化模块VM,所述特征词及训练样本生成模块TGM包括特征词提取模块和训练样本选取模块;采用情感分类系统的情感分类方法如下:A、爬虫模块CPM数据采集流程方法如下:A1、爬虫模块CPM从指定的站点开始以宽度优先的模式爬取网页,所述站点为起始网站;A2、爬虫模块CPM针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息,所述信息包括用户评论信息;A3、所述爬虫模块CPM包括数据库,所述爬虫模块CPM将步骤A2中所获取到的信息数据写入数据库中;B、特征词及训练样本生成模块TGM对数据库中的特征词和训练样本选取流程方法如下:B1、特征词的选取:情感分类系统支持向量机对评论文本进行分类,所述特征词及训练样本生成模块TGM的特征词提取模块采用算法FindCover来选取典型的特征词;所述特征词及训练样本生成模块TGM选取词性为名词(n),动词(v)和形容词(a)的词语作为特征词,即FindCover算法的输入P为数组{n,v,a};此外在实际计算中,所述特征词及训练样本生成模块TGM选取长度l>1的词语作为特征词;算法FindCover输入:已分词并标注词性的评价文本集合U,特征词个数n,特征词长度l,词性集合P输出:特征词组①.初始化集合S,A;②.计算映射关系Map M,将每个词语word映射到一组包含该word的文本id:M(word);③.当S未包含n个词语时④.寻找词语word,使其(i)词性满足P的要求,(ii)长度满足l的要求,(iii)当前的覆盖率coverage=|M(word)‑A|最大;⑤.如果寻找到的word的覆盖率coverage=0⑥.则终止循环;⑦.否则⑧.将word加入S;将M(word)加入A;⑨.返回S作为特征词组;B2、训练样本的选取:所述特征词及训练样本生成模块TGM的训练样本选取模块采用以下策略选取训练样本:首先,输出所有包含特征词的评价文本集合Uf;若|Uf|>1%|U|,则从Uf中随机选择1%|U|个评价文本作为训练样本;否则输出Uf作为训练样本;其次,选定的训练样本将进行人工情感标注;实际使用过程中,可以将文本根据情感分成2类,即:正面,负面;也可分成三类,即正面,中性,负面;C、SVM分类模块分类方法如下:所述SVM分类模块首先根据步骤B中的特征词将样本数据中的文本转换为形如:“<标记>=特征1:个数;特征2:个数;……特征n:个数”的格式,其中若采用三分法,则<标记>可以取值为positive,negative或neutral;若采用二分法,则<标记>可以取值为positive和negative;所述SVM分类模块随后将转换好的训练数据输入到LIBSVM库中进行分类训练;D、可视化模块VM将分析结果在Web端进行展现:所述可视化模块VM将步骤C中的分析结果在Web端进行展现,主要可视内容包括:a、基于特定关键词的文本的“正面”、“负面”、“中性”的比例;b、情感相关的原始文本;c、按时间维度展现文本的情感变化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610871431.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top