[发明专利]一种文本情感分析特征验证的前置处理方法在审
申请号: | 201611195601.8 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108228655A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 青岛祥智电子技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266100 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理信息 特征验证 原始训练集 前置处理 情感分析 文本情感 通用性和可扩展性 预处理 特征向量集 准确度 分析信息 特征向量 特征选择 原始数据 训练集 建模 算法 整合 分析 评估 | ||
本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。
技术领域
本发明属于文本情感分析领域,具体涉及一种文本情感分析特征验证的前置处理方法。
背景技术
现有的文本分类特征选择和验证方案在内容领域分类上已经有很好的效果,但应用在情感分析领域时具有以下的问题:
1、针对通用的适用场景,对情感分析这一业务领域不够深入,尤其是在互联网上情感信息存在明显的非平衡语料分布,人工构造情感分析语料集时容易错误分类等问题,现有算法对这两个问题的考虑普遍不足;
2、针对不同特征提取算法的通用验证比较基础,缺乏实际应用上的最佳实践设计。比如常用的验证方法中TFIDF关注词频,但对出现频度不高的关键词容易忽视;而相对的信息增益考虑了特征出现与否,但由于不考虑词频,对低频词的作用又容易夸大。
同时,现有的情感分析技术方案具有以下问题:
1、大部分现有中文情感分析算法的准确率偏低,缺少能够指导算法改进的特征验证或者特征选择方案,比如根据第五届中文倾向性分析评测研讨会COAE2013的结果,正确率普遍在60%左右;
2、文本信息由特征向量构成表示,但由于缺乏公认的领域最佳实践,情感分析的建模和算法也是五花八门,因此对情感分析特征向量的识别验证方案也需要考虑这些算法和模型各自的特点,比如常用的词袋,n-gram,word2vec等多种模型等。
综上,本发明旨在解决文本情感分析领域的特征验证问题中的特征向量集输入处理步骤,即得出特征是否适用于情感分析这一结论的初步判断,并生成有用信息用于后续处理。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种文本情感分析特征验证的前置处理方法。
本发明解决其技术问题所采用的技术方案是:一种文本情感分析特征验证的前置处理方法,包括如下步骤:
步骤一、对原始训练集的预处理得到预处理信息:
S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;
S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;
S3、对原始数据进行扩充,并输出结果addtion_sets:包括:
(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;
(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;
S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛祥智电子技术有限公司,未经青岛祥智电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611195601.8/2.html,转载请声明来源钻瓜专利网。