[发明专利]一种情感数据的分析方法及装置有效

专利信息
申请号: 201710162111.6 申请日: 2017-03-17
公开(公告)号: CN107229610B 公开(公告)日: 2019-06-21
发明(设计)人: 刘伟伟;史佳慧;骆世顺 申请(专利权)人: 咪咕数字传媒有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 蒋雅洁;张颖玲
地址: 310006 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 情感 数据 分析 方法 装置
【说明书】:

发明公开了一种情感数据的分析方法,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。本发明还同时公开了一种情感数据的分析装置。

技术领域

本发明涉及数据分析技术,具体涉及一种情感数据的分析方法及装置。

背景技术

随着移动互联网的快速发展,促使着人们的生活、工作、娱乐等方方面面的行为方式也发生着改变。例如,对于各大电商、社交、阅读等平台提供的产品、内容或服务,用户自发的评论分享产生的内容呈现出爆发式增长。

例如,在图书阅读平台中,每天产生的书评文本就有千万条,而这千万条书评文本中包含有读者对各图书相关内容的评价、对作者的评价、对阅读产品的性能与服务质量的反馈以及读者自身的需求或期望等价值信息,如果所述图书阅读平台能够根据这些书评文本确定出读者对该图书的情感属性(好评或差评),则将会对所述图书阅读平台满足用户的需求以及产品的改进带来极大的便利。

现有技术中确定图书情感的方法通常包括以下四种:

(1)人工搜索统计;

(2)基于特征向量表示进行情感分类;

(3)贝叶斯方法对文本特征进行分类;

(4)最大熵算法。

而上述四种确定图书情感的方法多是适用于短文本评论的情感分析,而在处理大数据量级的长文本评论时,无论在数据特征表示还是处理效率方面都会严重影响最终分析结果,具体如下:

针对人工搜索统计的方法:在处理大数据量级的长文本评论时,不仅会消耗巨大的精力与时间,而且也难保证结果的时效性与准确性。

针对基于特征向量表示进行情感分类的方法:在处理大数据量级的长文本评论时,由于其特征学习与分类识别均存在局限性。例如,基于向量空间模型 (VSM,VectorSpace Model)在处理数据量与维度较小的短评论时尚可发挥其优势,但在处理大量级长文本评论数据时,依靠大量孤立词集表示的词向量特征维度可达上万级,该模型表示的高维特征向量语义缺失且存在矩阵稀疏问题,因此,在特征处理时会占用大量存储与计算资源,影响文本处理效率。

针对文本特征分类常用的贝叶斯方法:在处理情感分析问题时容易受到其算法自身的限制。具体地,由于贝叶斯要求文本特征属性独立且不相关,较少考虑各词间的语义联系,而文本情感分析中的各特征词间受上下文语境影响较大,情感极性与各词联系密切,因此,分词偏差直接影响特征词概率分布计算从而导致极性分类结果欠佳。

针对最大熵算法:虽然在文本情感分析中考虑了上下文丰富的语义信息,但对长文本各词间概率统计的方式无疑需要花费大量的训练时间与空间,其语义联系的计算是以消耗的巨大的资源成本为代价。然而,通过降维或特征选择方法降低计算复杂度,所获取的特征数量并没有明显降低向量表示维度。例如,通过信息检索与数据挖掘的常用加权技术(TF-IDF,Term Frequency-Inverse Document Frequency)所选择的某一长评特征词同样多达几百甚至上千条,而通过特征词聚类的方式降维所得的词簇主题以实词为主,而对于反映情感的特征词却无法表示整条评论,个别出现的情感词片段存在语义缺失的问题。

发明内容

为解决现有存在的技术问题,本发明实施例期望提供一种情感数据的分析方法及装置,能够提高对图书评论文本进行情感属性分析的准确性。

本发明实施例的技术方案是这样实现的:

根据本发明实施例的一方面,提供一种情感数据的分析方法,所述方法包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕数字传媒有限公司,未经咪咕数字传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710162111.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top