[发明专利]一种基于集成学习的语种识别方法在审

专利信息
申请号: 201510644536.1 申请日: 2015-10-08
公开(公告)号: CN105335350A 公开(公告)日: 2016-02-17
发明(设计)人: 冯冲;高小燕;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于集成学习的语种识别方法,属于自然语言处理应用技术领域;本发明方法首先从训练集D中按照预设的抽取比例参数max_samples选取bootstrap样例得到训练集Db;其次基于Db按照特征选取比例参数max_features选取样例特征,并基于选取的特征对Db进行过滤得到训练集Dt;再者基于Dt对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器进行训练;最后利用多数表决把四种基本分类器组合成为一个更强的分类器;接下来就可以采用此分类器对待识别样例进行识别。对比现有技术,本发明方法可以识别少数民族的短文本语言,且准确率得到了提高。
搜索关键词: 一种 基于 集成 学习 语种 识别 方法
【主权项】:
一种基于集成学习的语种识别方法,其特征在于,包括以下步骤:步骤1,基于训练数据集D对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器通过以下过程进行训练:(1)t=1;(2)从训练数据集D={(x1,y1),(x2,y2),…,(xn,yn)}中按照预设的抽取比例参数max‑samples选取bootstrap样例作为训练集Db,其中,D中包含n个已标注类别的实例(xi,yi),每个实例xi=[xi1,xi2,…,xid]T是一个包含d个特征的向量,yi是xi所属的类别,i∈[1,n],yi∈Y,Y={1,2,…q},q表示样例所属的类别的个数;(3)基于训练集Db,按照预设的特征选取比例参数max‑features选取样例特征,并基于选取的特征进行特征过滤,得到特征过滤后的训练集Dt;(4)基于Dt对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器进行训练,得到各基本分类器的第t个分类器,表示为如下形式:Mt=MNB(Dt);Rt=RF(Dt);St=SVM(Dt);Lt=LM(Dt);其中,Mt表示第t个MNBBL分类器,Rt表示第t个RFBL分类器,St表示第t个SVMBL分类器,Lt表示第t个LMBL分类器;(5)t=t+1;如果t≤T,转到(2);其中,T为预设的训练次数;步骤2,使用步骤1训练好的四种基本分类器通过以下过程对待识别样例x进行识别得到对应于四种分类器的x的预测类别:(1)根据第t个分类器选取的特征对x进行特征过滤得到过滤后的待识别样例xt,t∈[1,T];(2)使用四种基本分类器的第t个分类器对xt进行识别得到识别结果Mt(xt)、Rt(xt)、St(xt)和Lt(xt);(3)对四种基本分类器采用简单投票规则得到对应基本分类器x的预测类别ym、yr、y8和yi,数学表述如下:<mrow><msub><mi>y</mi><mi>m</mi></msub><mo>=</mo><msub><mi>argmax</mi><mrow><mi>y</mi><mo>&Element;</mo><mi>Y</mi></mrow></msub><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mi>l</mi><mrow><mo>(</mo><mi>y</mi><mo>=</mo><msub><mi>M</mi><mi>t</mi></msub><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>;</mo></mrow><mrow><msub><mi>y</mi><mi>r</mi></msub><mo>=</mo><msub><mi>argmax</mi><mrow><mi>y</mi><mo>&Element;</mo><mi>Y</mi></mrow></msub><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mi>l</mi><mrow><mo>(</mo><mi>y</mi><mo>=</mo><msub><mi>R</mi><mi>t</mi></msub><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>;</mo></mrow><mrow><msub><mi>y</mi><mi>s</mi></msub><mo>=</mo><msub><mi>argmax</mi><mrow><mi>y</mi><mo>&Element;</mo><mi>Y</mi></mrow></msub><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mi>l</mi><mrow><mo>(</mo><mi>y</mi><mo>=</mo><msub><mi>S</mi><mi>t</mi></msub><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>;</mo></mrow><mrow><msub><mi>y</mi><mi>l</mi></msub><mo>=</mo><msub><mi>argmax</mi><mrow><mi>y</mi><mo>&Element;</mo><mi>Y</mi></mrow></msub><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mi>l</mi><mrow><mo>(</mo><mi>y</mi><mo>=</mo><msub><mi>L</mi><mi>t</mi></msub><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo><mo>)</mo></mrow><mo>;</mo></mrow>其中,<mrow><mi>l</mi><mrow><mo>(</mo><mi>a</mi><mo>=</mo><mi>b</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>a</mi><mo>!</mo><mo>=</mo><mi>b</mi></mrow></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mrow><mi>a</mi><mo>=</mo><mi>b</mi></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>步骤3,利用整合策略把四种基本分类器组合成为一个更强的分类器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510644536.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top