[发明专利]一种基于集成学习的语种识别方法在审
| 申请号: | 201510644536.1 | 申请日: | 2015-10-08 |
| 公开(公告)号: | CN105335350A | 公开(公告)日: | 2016-02-17 |
| 发明(设计)人: | 冯冲;高小燕;黄河燕 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于集成学习的语种识别方法,属于自然语言处理应用技术领域;本发明方法首先从训练集D中按照预设的抽取比例参数max_samples选取bootstrap样例得到训练集Db;其次基于Db按照特征选取比例参数max_features选取样例特征,并基于选取的特征对Db进行过滤得到训练集Dt;再者基于Dt对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器进行训练;最后利用多数表决把四种基本分类器组合成为一个更强的分类器;接下来就可以采用此分类器对待识别样例进行识别。对比现有技术,本发明方法可以识别少数民族的短文本语言,且准确率得到了提高。 | ||
| 搜索关键词: | 一种 基于 集成 学习 语种 识别 方法 | ||
【主权项】:
一种基于集成学习的语种识别方法,其特征在于,包括以下步骤:步骤1,基于训练数据集D对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器通过以下过程进行训练:(1)t=1;(2)从训练数据集D={(x1,y1),(x2,y2),…,(xn,yn)}中按照预设的抽取比例参数max‑samples选取bootstrap样例作为训练集Db,其中,D中包含n个已标注类别的实例(xi,yi),每个实例xi=[xi1,xi2,…,xid]T是一个包含d个特征的向量,yi是xi所属的类别,i∈[1,n],yi∈Y,Y={1,2,…q},q表示样例所属的类别的个数;(3)基于训练集Db,按照预设的特征选取比例参数max‑features选取样例特征,并基于选取的特征进行特征过滤,得到特征过滤后的训练集Dt;(4)基于Dt对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器进行训练,得到各基本分类器的第t个分类器,表示为如下形式:Mt=MNB(Dt);Rt=RF(Dt);St=SVM(Dt);Lt=LM(Dt);其中,Mt表示第t个MNBBL分类器,Rt表示第t个RFBL分类器,St表示第t个SVMBL分类器,Lt表示第t个LMBL分类器;(5)t=t+1;如果t≤T,转到(2);其中,T为预设的训练次数;步骤2,使用步骤1训练好的四种基本分类器通过以下过程对待识别样例x进行识别得到对应于四种分类器的x的预测类别:(1)根据第t个分类器选取的特征对x进行特征过滤得到过滤后的待识别样例xt,t∈[1,T];(2)使用四种基本分类器的第t个分类器对xt进行识别得到识别结果Mt(xt)、Rt(xt)、St(xt)和Lt(xt);(3)对四种基本分类器采用简单投票规则得到对应基本分类器x的预测类别ym、yr、y8和yi,数学表述如下:![]()
![]()
![]()
![]()
其中,![]()
步骤3,利用整合策略把四种基本分类器组合成为一个更强的分类器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510644536.1/,转载请声明来源钻瓜专利网。
- 上一篇:翻译系统中使用语料等级评价方法
- 下一篇:文本编辑方法和装置





