[发明专利]一种文本情感分析特征验证的前置处理方法在审
申请号: | 201611195601.8 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108228655A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 青岛祥智电子技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266100 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理信息 特征验证 原始训练集 前置处理 情感分析 文本情感 通用性和可扩展性 预处理 特征向量集 准确度 分析信息 特征向量 特征选择 原始数据 训练集 建模 算法 整合 分析 评估 | ||
1.一种文本情感分析特征验证的前置处理方法,其特征在于:包括如下步骤:
步骤一、对原始训练集的预处理得到预处理信息:
S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;
S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;
S3、对原始数据进行扩充,并输出结果addtion_sets:包括:
(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;
(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;
S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;
步骤二、对预处理信息进行特征验证和特征选择:
S1、对于原始特征向量集:根据sample_size值和vector_dimen值,在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后,对处理结果乘以不同的权重;
S2、对于参考向量集:逐个特征向量集采用通用的InfoGain选择出代表性的特征项;采用类bagging算法构建向量集,对向量集中的每个向量通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。
2.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:对于情感分析样本,当各有效分类的不重复样本数在1000以上时,则视为样本总体数量够大。
3.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:文本信息分布内容参数sample_text_info包括:字数、句数和段数。
4.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:构建基于词袋模型的特征向量的方法是:基于情感词典生成词袋特征向量,每项特征值是词频与情感值之积;基于TFIDF提取出的词典生成词袋特征向量;对添加的新特征采用加权平均KL散度进行降维处理。
5.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:对训练集进行均衡化处理的方法为:通过重复选取偏少类型或者减少偏多类型的方式进行均衡化处理,之后重新按照给定的情感分析算法生成参考向量集。
6.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在对原始数据进行扩充时,在模型中保留扩展空间,允许自行添加生成附加向量集custom_addition_set。
7.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在进行基于交叉验证做判断标准的特征选择处理时,对大规模样本,使用InfoGain和DF算法相结合的方式进行。
8.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:在进行基于bootstrap来验证分类准确率处理时,对小规模样本,用于对比的参考向量集通过修改原始算法进行逐特征删减,采用卡方检验判断生成的分类结果之间是否存在显著性差异,从而判断单特征项的可用性。
9.根据权利要求1所述的一种文本情感分析特征验证的前置处理方法,其特征在于:所述类bagging算法是指:设向量集为下标从1到n,则向量集为D1到Dn,则每个向量集中的元素都对应于原始训练集中的一项,设原始训练集共m项,第i项对应的分类为Ci,在向量集Dj的分类为Cij,则构建向量集如下:
(1,C11,C12…C1j…C1n,C1),
…
(i,Ci1…Cij…Cin,Ci),
…
(m,Cm1…Cmj…Cmn,Cm)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛祥智电子技术有限公司,未经青岛祥智电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611195601.8/1.html,转载请声明来源钻瓜专利网。