[发明专利]一种文本情感分析特征验证的前置处理方法在审
申请号: | 201611195601.8 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108228655A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 青岛祥智电子技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266100 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。 | ||
搜索关键词: | 预处理信息 特征验证 原始训练集 前置处理 情感分析 文本情感 通用性和可扩展性 预处理 特征向量集 准确度 分析信息 特征向量 特征选择 原始数据 训练集 建模 算法 整合 分析 评估 | ||
【主权项】:
1.一种文本情感分析特征验证的前置处理方法,其特征在于:包括如下步骤:步骤一、对原始训练集的预处理得到预处理信息:S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;S3、对原始数据进行扩充,并输出结果addtion_sets:包括:(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;步骤二、对预处理信息进行特征验证和特征选择:S1、对于原始特征向量集:根据sample_size值和vector_dimen值,在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后,对处理结果乘以不同的权重;S2、对于参考向量集:逐个特征向量集采用通用的InfoGain选择出代表性的特征项;采用类bagging算法构建向量集,对向量集中的每个向量通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛祥智电子技术有限公司,未经青岛祥智电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611195601.8/,转载请声明来源钻瓜专利网。