[发明专利]一种Bagging_BSJ短文本分类方法在审

申请号：	201710554325.8	申请日：	2017-07-10
公开（公告）号：	CN107292348A	公开（公告）日：	2017-10-24
发明（设计）人：	赵德新;张德干;常智;杜娜娜	申请（专利权）人：	天津理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/27
代理公司：	天津耀达律师事务所12223	代理人：	侯力
地址：	300384 ***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种Bagging_BSJ短文本分类方法。短文本具有高稀疏性，实时性，不规范性等特点，已有的传统文本分类算法应用于短文本分类时，受奇异数据影响较大，难以取得较好的效果。本发明方法针对短文本的高稀疏性，实时性等特点，提出了基于集成思想的短文本分类方法。将该方法采用Bagging集成算法思想，对短文本进行语义特征扩展，并结合贝叶斯算法，支持向量机算法以及J48算法，对语义特征扩展后的短文本进行分类，得到了更好的分类效果。本文提出的Bagging_BSJ方法其准确率提高了12％，召回率提高了28％，F值提高了20％。
搜索关键词：	一种 bagging_bsj 文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种Bagging_BSJ短文本分类方法，其特征在于该方法主要包括如下关键步骤：第1、基于维基百科知识库的WLA短文本语义特征扩展；第1.1、相关特征抽取，对于给定特征词项，通过消歧义和重定向将该特征词项映射到对应的维基百科页面中，提取页面文本信息，并对这些文本信息进行去噪处理，得到一组由词项组成的特征向量，该特征向量中的元素为特征词项的备选扩展词项；第1.2、语义关系量化，通过WLA(Wikipedia Links and Abstract)算法进行语义关系计算，定量描述给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度；第1.3、经过相关特征抽取、词项间语义关系量化之后，为每个给定的主题特征词项构建相应的特征扩展词项向量Ct{(c1,r1),(c2,r2),…,(ck,rk)}，其中ci、i＝1,2,…,k，是与主题特征词项t相关的备选扩展词项，ri、i＝1,2,…,k，表示ci与t之间的语义相似度，将这些词项向量作为下面短文本分类时的样本；第2、基于集成思想的Bagging_BSJ短文本分类算法；第2.1、假设训练集S＝{(x1,y1),(x2,y2),…,(xm,yn)}中含有m篇文章n种类别，其中xi为训练样本，yj为xi所对应的类别标签；第2.2、利用有放回的抽样技术分别从训练集S中抽取Z1个、Z2个、Z3个训练样本子集，每个子集中均含有g个样本；第2.3、以朴素贝叶斯为基分类器的Bagging分类器对前Z1个子集进行训练，训练出的模型记为类似的，中间的Z2个子集和最后的Z3个子集分别以支持向量机和J48为基分类器进行训练，得到的分类模型分别记为和用该方法训练得到Z1+Z2+Z3个分类器；第2.4、分类过程是将2.3训练得到的分类模型Hi、i＝1,2,…,Z1+Z2+Z3，均作用于待分类样本，并借助于投票算法对分类结果进行集成处理，从而判断出新样本类别；即：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津理工大学，未经天津理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710554325.8/，转载请声明来源钻瓜专利网。

上一篇：一种胶囊内窥镜图像识别方法
下一篇：基于百科知识语义增强的零样本分类方法、装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Bagging_BSJ短文本分类方法在审

专利文献下载