[发明专利]文本分类模型训练方法、文本分类方法及其装置在审

专利信息
申请号: 201710692909.1 申请日: 2017-08-14
公开(公告)号: CN107590195A 公开(公告)日: 2018-01-16
发明(设计)人: 张天颜;张翔;饶伟健;兰小丰 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京志霖恒远知识产权代理事务所(普通合伙)11435 代理人: 陈姗姗
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 模型 训练 方法 及其 装置
【权利要求书】:

1.一种文本分类模型的训练方法,其特征在于,所述方法包括:

通过计算训练文本集合中各候选词的词频-逆文档频率和互信息,筛选出若干特征词;

基于各所述特征词,根据遗传算法训练文本分类模型。

2.根据权利要求1所述的训练方法,其特征在于,所述通过计算训练文本集合中各候选词的词频-逆文档频率和互信息,筛选出若干特征词包括:

根据所述词频-逆文档频率和所述互信息计算各所述候选词的特征值,所述特征值大于预设特征值的相应候选词将作为特征词。

3.根据权利要求2所述的训练方法,其特征在于,其所述特征值的计算方法如下:

Ci=α×tfidfi-β×Ii

其中,Ci为词语i的特征值,tfidfi为词语i的词频-逆文档频率,Ii为词语i的互信息,α为tfidfi的权重,β为Ii的权重,α+β=1,α>0,β>0。

4.根据权利要求3所述的训练方法,其特征在于,所述训练样本集合包括训练集和验证集,所述基于各所述特征词,根据遗传算法训练文本分类模型包括:

根据各所述特征词生成若干特征词样本;

采用所述训练集和所述特征词样本构建分类模型;

采用所述训练集和验证集计算各所述特征词样本的适应度,根据各所述适应度,通过遗传算法对各所述特征词样本进行迭代训练,生成最优的文本分类模型。

5.根据权利要求4所述的训练方法,其特征在于,

每个所述特征词样本包含至少一个所述特征词,且所包含的特征词均不相同。

6.根据权利要求5所述的训练方法,其特征在于,所述采用所述训练集和验证集计算各所述特征词样本的适应度,根据各所述适应度,通过遗传算法对各所述特征词样本进行迭代训练,生成最优的文本分类模型包括:

步骤A:将包含各所述特征词样本的群体作为第一代群体,利用所述验证集和所述训练集,分别计算各所述特征词样本的适应度;

步骤B:根据与所述适应度成正比的概率,确定父母本,所述父母本经交叉、变异生成各子代样本;

步骤C:用各所述子代样本替换适应度小于第二设定值的特征词样本,并生成第二代群体;

步骤D:根据每一代群体的适应度平均值,计算总体标准偏差d,所述总体标准偏差d与偏差设定值比较,当小于所述偏差设定值时,停止迭代,将最终生成的群体中适应度最大的特征词样本的分类模型作为最优分类模型输出,否则重复步骤A-C的迭代,d的计算公式如下:

其中,fi为一代群体的适应度的平均值,u为m代全部群体适应度的均值,m为当前迭代次数。

7.根据权利要求6所述的训练方法,其特征在于,针对步骤A,根据训练集准确率、验证集准确率计算各所述特征词样本的适应度,计算公式如下:

fi=mean(accutrain,accuvalid)i-stddev(accutrain,accuvalid)i-p_convi

其中,accutrain为训练集准确率,accuvalid为验证集准确率,p_convi为当前迭代生成的群体中最大与最小准确率差值的平方。

8.一种文本分类方法,其特征在于,包括:

利用如权利要求1-7任一项所述的训练方法训练生成的最优文本分类模型,对待分类文本进行分类。

9.根据权利要求8所述的分类方法,其特征在于,还包括:对所述分类配置若干子分类,根据所述子分类的关键词确定所述待分类文本的子分类类型,所述子分类配置有对应的关键词;

所述根据所述子分类的关键词确定所述待分类文本的子分类类型包括:

将所述待分类文本中的词语分别与所述关键词比对,若有匹配的关键词则返回相应的子分类类型;若无匹配的关键词则子分类类型为空。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710692909.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top