[发明专利]一种基于支持向量机的情感分类方法在审
申请号: | 201610871431.4 | 申请日: | 2016-09-30 |
公开(公告)号: | CN106407449A | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 王欣;钟吉英;贾建民;赵亮;谭斌;于成业;郝妙;赵海臣 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 四川省成都市天策商标专利事务所51213 | 代理人: | 秦华云 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于支持向量机的情感分类方法,包括情感分类系统,所述情感分类系统包括依次通信连接的爬虫模块CPM、特征词及训练样本生成模块TGM、SVM分类模块和可视化模块VM,所述特征词及训练样本生成模块TGM包括特征词提取模块和训练样本选取模块;采用情感分类系统的情感分类方法如下A、爬虫模块CPM数据采集站点数据;B、特征词及训练样本生成模块TGM对数据库中的特征词和训练样本选取;C、SVM分类模块分类;D、可视化模块VM将分析结果在Web端进行展现。本发明能够准确地对用户在微博、论坛所发表的评论信息根据用户的情感进行分类,进而发现舆情状况。 | ||
搜索关键词: | 一种 基于 支持 向量 情感 分类 方法 | ||
【主权项】:
一种基于支持向量机的情感分类方法,其特征在于:包括情感分类系统,所述情感分类系统包括依次通信连接的爬虫模块CPM、特征词及训练样本生成模块TGM、SVM分类模块和可视化模块VM,所述特征词及训练样本生成模块TGM包括特征词提取模块和训练样本选取模块;采用情感分类系统的情感分类方法如下:A、爬虫模块CPM数据采集流程方法如下:A1、爬虫模块CPM从指定的站点开始以宽度优先的模式爬取网页,所述站点为起始网站;A2、爬虫模块CPM针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息,所述信息包括用户评论信息;A3、所述爬虫模块CPM包括数据库,所述爬虫模块CPM将步骤A2中所获取到的信息数据写入数据库中;B、特征词及训练样本生成模块TGM对数据库中的特征词和训练样本选取流程方法如下:B1、特征词的选取:情感分类系统支持向量机对评论文本进行分类,所述特征词及训练样本生成模块TGM的特征词提取模块采用算法FindCover来选取典型的特征词;所述特征词及训练样本生成模块TGM选取词性为名词(n),动词(v)和形容词(a)的词语作为特征词,即FindCover算法的输入P为数组{n,v,a};此外在实际计算中,所述特征词及训练样本生成模块TGM选取长度l>1的词语作为特征词;算法FindCover输入:已分词并标注词性的评价文本集合U,特征词个数n,特征词长度l,词性集合P输出:特征词组①.初始化集合S,A;②.计算映射关系Map M,将每个词语word映射到一组包含该word的文本id:M(word);③.当S未包含n个词语时④.寻找词语word,使其(i)词性满足P的要求,(ii)长度满足l的要求,(iii)当前的覆盖率coverage=|M(word)‑A|最大;⑤.如果寻找到的word的覆盖率coverage=0⑥.则终止循环;⑦.否则⑧.将word加入S;将M(word)加入A;⑨.返回S作为特征词组;B2、训练样本的选取:所述特征词及训练样本生成模块TGM的训练样本选取模块采用以下策略选取训练样本:首先,输出所有包含特征词的评价文本集合Uf;若|Uf|>1%|U|,则从Uf中随机选择1%|U|个评价文本作为训练样本;否则输出Uf作为训练样本;其次,选定的训练样本将进行人工情感标注;实际使用过程中,可以将文本根据情感分成2类,即:正面,负面;也可分成三类,即正面,中性,负面;C、SVM分类模块分类方法如下:所述SVM分类模块首先根据步骤B中的特征词将样本数据中的文本转换为形如:“<标记>=特征1:个数;特征2:个数;……特征n:个数”的格式,其中若采用三分法,则<标记>可以取值为positive,negative或neutral;若采用二分法,则<标记>可以取值为positive和negative;所述SVM分类模块随后将转换好的训练数据输入到LIBSVM库中进行分类训练;D、可视化模块VM将分析结果在Web端进行展现:所述可视化模块VM将步骤C中的分析结果在Web端进行展现,主要可视内容包括:a、基于特定关键词的文本的“正面”、“负面”、“中性”的比例;b、情感相关的原始文本;c、按时间维度展现文本的情感变化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610871431.4/,转载请声明来源钻瓜专利网。
- 上一篇:签核文件管理方法及装置
- 下一篇:文件搜索方法及装置