[发明专利]一种文本情感分析特征验证的前置处理方法在审

申请号：	201611195601.8	申请日：	2016-12-21
公开（公告）号：	CN108228655A	公开（公告）日：	2018-06-29
发明（设计）人：	不公告发明人	申请（专利权）人：	青岛祥智电子技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	266100 山东省青岛***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本情感分析特征验证的前置处理方法，通过对原始训练集的预处理得到预处理信息：确定原始训练集的概要，确定原特征向量集的概要，对原始数据进行扩充，从而构造出整合后的预处理信息；然后，对预处理信息进行特征验证和特征选择。本发明的积极效果是：本发明从训练集和特征向量两个方面着手生成分析信息，既保障了评估结论的信息丰富程度，同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性，对各种不同建模和实现的情感分析算法都能发挥良好效果。
搜索关键词：	预处理信息特征验证原始训练集前置处理情感分析文本情感通用性和可扩展性预处理特征向量集准确度分析信息特征向量特征选择原始数据训练集建模算法整合分析评估
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本情感分析特征验证的前置处理方法，其特征在于：包括如下步骤：步骤一、对原始训练集的预处理得到预处理信息：S1、确定原始训练集的概要，并输出结果sample_struct，包括：样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info；S2、输入待验证的特征向量集，确定原特征向量集的概要，并输出结果vector_struct，包括：多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen；S3、对原始数据进行扩充，并输出结果addtion_sets：包括：(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息，则构建基于词袋模型的特征向量，对低维度的特征向量进行补充，得到词频信息补充结果tf_addition_set；(2)若情感分类的分布参数sample_dist分布不均衡，则对训练集进行均衡化处理，得到均衡化处理结果even_addition_set；S4、构造出整合后的预处理信息，包括：原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct；步骤二、对预处理信息进行特征验证和特征选择：S1、对于原始特征向量集：根据sample_size值和vector_dimen值，在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后，对处理结果乘以不同的权重；S2、对于参考向量集：逐个特征向量集采用通用的InfoGain选择出代表性的特征项；采用类bagging算法构建向量集，对向量集中的每个向量通过多数投票的方式确定理论推算的分类值，再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青岛祥智电子技术有限公司，未经青岛祥智电子技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611195601.8/，转载请声明来源钻瓜专利网。

上一篇：一种大数据分布式存储方法和系统
下一篇：基于CART决策树的URL分类方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本情感分析特征验证的前置处理方法在审

专利文献下载