[发明专利]一种情感数据的分析方法及装置有效
申请号: | 201710162111.6 | 申请日: | 2017-03-17 |
公开(公告)号: | CN107229610B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 刘伟伟;史佳慧;骆世顺 | 申请(专利权)人: | 咪咕数字传媒有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 310006 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 数据 分析 方法 装置 | ||
本发明公开了一种情感数据的分析方法,所述方法包括:获取待分析数据;对所述待分析数据进行分词处理,得到分词特征数据;将所述分词特征数据生成用于确定所述分词特征数据中各词之间语义关系的分布式词向量;根据所述分布式词向量中各词的特征数据,得到所述待分析数据的完整数据向量;根据学习模型对所述完整数据向量进行分类计算,得到用于确定所述待分析数据的情感属性。本发明还同时公开了一种情感数据的分析装置。
技术领域
本发明涉及数据分析技术,具体涉及一种情感数据的分析方法及装置。
背景技术
随着移动互联网的快速发展,促使着人们的生活、工作、娱乐等方方面面的行为方式也发生着改变。例如,对于各大电商、社交、阅读等平台提供的产品、内容或服务,用户自发的评论分享产生的内容呈现出爆发式增长。
例如,在图书阅读平台中,每天产生的书评文本就有千万条,而这千万条书评文本中包含有读者对各图书相关内容的评价、对作者的评价、对阅读产品的性能与服务质量的反馈以及读者自身的需求或期望等价值信息,如果所述图书阅读平台能够根据这些书评文本确定出读者对该图书的情感属性(好评或差评),则将会对所述图书阅读平台满足用户的需求以及产品的改进带来极大的便利。
现有技术中确定图书情感的方法通常包括以下四种:
(1)人工搜索统计;
(2)基于特征向量表示进行情感分类;
(3)贝叶斯方法对文本特征进行分类;
(4)最大熵算法。
而上述四种确定图书情感的方法多是适用于短文本评论的情感分析,而在处理大数据量级的长文本评论时,无论在数据特征表示还是处理效率方面都会严重影响最终分析结果,具体如下:
针对人工搜索统计的方法:在处理大数据量级的长文本评论时,不仅会消耗巨大的精力与时间,而且也难保证结果的时效性与准确性。
针对基于特征向量表示进行情感分类的方法:在处理大数据量级的长文本评论时,由于其特征学习与分类识别均存在局限性。例如,基于向量空间模型 (VSM,VectorSpace Model)在处理数据量与维度较小的短评论时尚可发挥其优势,但在处理大量级长文本评论数据时,依靠大量孤立词集表示的词向量特征维度可达上万级,该模型表示的高维特征向量语义缺失且存在矩阵稀疏问题,因此,在特征处理时会占用大量存储与计算资源,影响文本处理效率。
针对文本特征分类常用的贝叶斯方法:在处理情感分析问题时容易受到其算法自身的限制。具体地,由于贝叶斯要求文本特征属性独立且不相关,较少考虑各词间的语义联系,而文本情感分析中的各特征词间受上下文语境影响较大,情感极性与各词联系密切,因此,分词偏差直接影响特征词概率分布计算从而导致极性分类结果欠佳。
针对最大熵算法:虽然在文本情感分析中考虑了上下文丰富的语义信息,但对长文本各词间概率统计的方式无疑需要花费大量的训练时间与空间,其语义联系的计算是以消耗的巨大的资源成本为代价。然而,通过降维或特征选择方法降低计算复杂度,所获取的特征数量并没有明显降低向量表示维度。例如,通过信息检索与数据挖掘的常用加权技术(TF-IDF,Term Frequency-Inverse Document Frequency)所选择的某一长评特征词同样多达几百甚至上千条,而通过特征词聚类的方式降维所得的词簇主题以实词为主,而对于反映情感的特征词却无法表示整条评论,个别出现的情感词片段存在语义缺失的问题。
发明内容
为解决现有存在的技术问题,本发明实施例期望提供一种情感数据的分析方法及装置,能够提高对图书评论文本进行情感属性分析的准确性。
本发明实施例的技术方案是这样实现的:
根据本发明实施例的一方面,提供一种情感数据的分析方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕数字传媒有限公司,未经咪咕数字传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710162111.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于分割文本的方法和设备
- 下一篇:语言识别方法、装置及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置