[发明专利]文本分类模型训练方法、文本分类方法及其装置在审
申请号: | 201710692909.1 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107590195A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 张天颜;张翔;饶伟健;兰小丰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙)11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 及其 装置 | ||
技术领域
本公开一般涉及计算机技术领域,尤其涉及一种文本分类模型训 练方法、文本分类方法及其装置。
背景技术
产品投放市场后,用户可通过文本方式反馈使用产品过程中的评价或 问题点,是用户体验的体现,因此,用户反馈对提升产品的用户体验具 有很高的参考价值。而每日的用户反馈问题数以万计,如何从大量的反 馈数据中挖掘出有效信息,发掘产品问题改进点,同时对产品突发问题 进行及时的监控和告警,有效的进行舆情防控,显得尤为重要。如何对 用户反馈的文本信息进行分类,成为处理大量用户反馈信息的基础。现 有的一些分类方法迭代效率低,缺乏灵活性,分类准确率低,实际应用 效果差。
一般文本分类可分为特征提取阶段、分类模型训练阶段、分类阶段。
其中,在文本分类的特征提取阶段大多采用互信息特征提取方法,互 信息特征提取方法具有对类别和特征之间的连接性能够增强的特点。
在分类模型的训练阶段大多采用人工构造分类模型。
在分类阶段,现有技术是通过多个二类支持向量机的组合来实现树状 分类,主要有一对多组合模式、一对一组合模式和SVM决策树,或者, 通过构造多个分类器的组合来解决。
在文本分类的特征提取阶段,传统的互信息特征提取方法虽然具有对 类别和特征之间的连接性能够增强的特点,但是对分布较分散的特征提 取的效果并不好,处理单个特征时的准确率较低。
在分类模型的训练阶段,现存的方法大多采用人工构造分类模型,导 致分类准确率的低下。
在分类阶段,现有技术实际解决的是单层多个类别之间的树状分类, 并没有解决实际应用中的树状多层类别的分类问题。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种准确度高且自 能程度较高的文本分类模型训练方法、能够进行多层树状分类的文本 分类方法及其装置。
第一方面,本申请提供一种文本分类模型的训练方法,包括:
通过计算训练文本集合中各候选词的词频-逆文档频率和互信息,筛 选出若干特征词;
基于各特征词,根据遗传算法训练文本分类模型。
第二方面,本申请提供一种文本分类方法,包括:
利用如权利要求各实施例提供的任一项训练方法训练生成的最优文 本分类模型,对待分类文本进行分类。
第三方面,本申请提供一种文本分类模型的训练装置,装置包括:
特征词筛选单元:配置通过计算训练文本集合中各候选词的词频-逆 文档频率和互信息,筛选出若干特征词;
训练单元:配置用于基于各特征词,根据遗传算法训练文本分类模 型。
第四方面,本申请提供一种文本分类装置,包括:
分类单元:配置用于利用如权利要求各实施例提供的任一项的训练 方法训练生成的最优文本分类模型,对待分类文本进行分类。
第五方面,本申请提供一种设备,设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行时,使得一个或多个 处理器执行各实施例提供的文本分类模型的训练方法;
或者,
当一个或多个程序被一个或多个处理器执行时,使得一个或多个 处理器执行各实施例提供的文本分类方法。
第六方面,本申请还提供一种存储有计算机程序的计算机可读存 储介质,其特征在于,
该程序被处理器执行时实现各实施例提供的文本分类模型的训练 方法;
或者,
该程序被处理器执行时实现各实施例提供的文本分类方法。
根据本申请实施例提供的技术方案,通过计算训练文本集合中各候 选词的词频-逆文档频率和互信息,筛选出若干特征词,能够解决现有技 术筛选的特征词准确率低下问题。进一步的,根据本申请的某些实施 例,采用训练集和验证集计算各特征词样本的适应度,根据各适应度, 通过遗传算法对各特征词样本进行迭代训练,生成最优的文本分类模型, 能解决现有技术的分类模型的人工干预过多的问题,获得高效的分类 模型训练效果。另一方面,对分类配置若干子分类,根据子分类的关键 词确定待分类文本的子分类类型,真正实现了多层的树状分类。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性系统架构;
图2示出了根据本申请实施例的文本分类模型的训练方法的示例 性流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710692909.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铜管加工装置
- 下一篇:一种铝合金型材弯折装置