[发明专利]一种基于社交网络数据的情感分析方法有效

申请号：	201610475678.4	申请日：	2016-06-23
公开（公告）号：	CN106096664B	公开（公告）日：	2019-09-20
发明（设计）人：	肖文晗;谭浩宇	申请（专利权）人：	广州云数信息科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q50/00
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	麦小婵;骆爱文
地址：	510000 广东省广州市南沙区环视大道南2***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于社交网络数据的情感分析方法，包括：提取用户在社交网络平台上的发布数据；利用标注器对发布数据进行分词和标注；对进行分词和标注后的发布数据进行文本预处理和依存解析；将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集；分别对训练集或预测集的发布数据进行情感分类特征提取；采用线性支持向量机模型对在训练集上提取的情感分类特征进行训练，获得情感分析分类器；采用情感分析分类器对预测集中的情感分类特征进行分析，预测出用户在社交网络平台上发布的目标数据的情感倾向。本发明针对社交网络数据的特点，有效提高对情感倾向预测的准确性。
搜索关键词：	一种基于社交网络数据情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于社交网络数据的情感分析方法，其特征在于，包括：根据用户序列号，通过API接口并使用Python脚本提取用户在社交网络平台上的发布数据；利用标注器对所述发布数据进行分词和标注；所述标注包括词性标注和符号标注；对进行分词和标注后的发布数据进行文本预处理和依存解析，过滤冗余数据，获取句法结构特征和词汇之间的依存关系；将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集；分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取；其中，所述情感分类特征包括文体特征、句法特征和情感词典特征；采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练，获得情感分析分类器；采用所述情感分析分类器对所述预测集中的情感分类特征进行分析，预测出用户在社交网络平台上发布的目标数据的情感倾向；其中，发布数据的情感词典特征通过以下步骤提取：根据情感词典以及发布数据中每个词汇的情感值，将发布数据中的词汇划分为全单词组，正向情感值单词组，负向情感值单词组；其中，所述情感词典包含情感词语及其正向情感值和负向情感值；在所述全单词组中提取最后一个词汇的情感值、所有单个词汇的总情感值、所有两个连续词汇的总情感值、所有不连续词汇的总情感值，以及情感值不为零的词汇数目，作为所述全单词组的情感词典特征；在所述正向情感值单词组和所述负向情感值单词组中，分别提取情感值绝对值的最大值、所有单个词汇的总情感值，以及词汇数目，作为所述正向情感值单词组或所述负向情感值单词组对应的情感词典特征；将不同情感词典的各个情感值分组的情感词典特征进行合并，获得当前发布数据的情感词典特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州云数信息科技有限公司，未经广州云数信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610475678.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于社交网络数据的情感分析方法有效

专利文献下载