[发明专利]基于自适应提升算法的中文微博观点句识别特征的提取方法在审

申请号：	201410135746.3	申请日：	2014-04-04
公开（公告）号：	CN103886097A	公开（公告）日：	2014-06-25
发明（设计）人：	陈锻生;吴扬扬;方圆	申请（专利权）人：	华侨大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	厦门市首创君合专利事务所有限公司 35204	代理人：	张松亭
地址：	362000***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于自适应提升算法的中文微博观点句识别特征的提取方法，首先设定与识别微博观点句相关的特征，将具有单个特征的弱分类器构建成具有多个特征的强分类器，并且在强分类器的构建过程中进行关键识别特征的选择，最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器，通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。
搜索关键词：	基于自适应提升算法中文观点识别特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于：包括：步骤1，具有带是否为观点句标记的微博训练样本，输入该微博训练样本集合S={(x_i,y_i),i=1,…,n}，其中x_i∈X，y_i∈Y，Y={-1,+1}，X是该n个微博训练样本的m个特征，Y是每一个微博训练样本对应的分类结果，若该微博训练样本x_i是观点句，则该微博训练样本标记为y_i=+1，否则为y_i=-1；设定特征选择的迭代终止条件为：分类误差ε_j与0.5的差距小于阈值β，其中，β可根据情况自行设定；设定微博训练样本集的初始权重分布D₁为平均分布，即设定被选择的初始特征集合为空集；设定迭代变量初始值j=1，最大迭代次数为m；步骤2，按以下步骤21-27进行循环迭代，包括：步骤21，在权重分布为D_j的微博训练样本集中，找到以特征f_j为单一特征的弱分类器h_j，该弱分类器h_j对该微博训练样本集的分类误差ε_j与0.5的差距最大，其中：该弱分类器对该微博训练样本集的分类误差h为所有输出为Y的单一特征弱分类器；步骤22，记下该弱分类器h_j的参数：特征f_j、二分该权重分布微博训练样本集的阈值和二元关系运算符；步骤23，更新被选择特征集合F=F∪{f_j},本次迭代所选的特征f_j在以后的迭代中不再使用；步骤24，计算该弱分类器h_j在强分类器H中的权重步骤25，如果分类误差|ε_j-0.5|≤β，则最大迭代次数T=j，退出迭代，结束特征选择，否则，继续进行步骤26；步骤26，迭代变量j值加1，如果j大于m，则已经选择全部特征，退出迭代，否则，继续进行步骤27；步骤27，更新该微博训练样本集的权重分布：i=1,…,n，其中，返回步骤21；步骤3，输出被选择特征集合F={f_j|j=1,…,T}和强分类器H(x)=sign[Σj=1Tαjhj(x)].]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华侨大学，未经华侨大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410135746.3/，转载请声明来源钻瓜专利网。

上一篇：一种高性能超细晶硬质合金新材料分条分切刀
下一篇：一种能够伸缩的万用表表棒

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自适应提升算法的中文微博观点句识别特征的提取方法在审

专利文献下载