[发明专利]一种对文本进行分类的方法及装置有效

申请号：	201811156700.4	申请日：	2018-09-30
公开（公告）号：	CN110968687B	公开（公告）日：	2023-06-16
发明（设计）人：	陈云枫	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本进行分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了对文本进行分类的方法及装置，涉及自然语言处理技术领域，能够使得分类结果更贴近不同业务的需求，提高分类结果的质量和效率，本发明的主要技术方案为：判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，预置强规则逻辑用于区别文本数据是否被归属于为与业务需求无关的类别；若是，则根据预置强规则逻辑对应的匹配结果，确定文本数据的分类；若否，则通过预置文本分类模型对文本数据执行分类处理，预置文本分类模型包含预置弱规则逻辑，预置弱规则逻辑用于在对文本数据执行分类处理时根据业务需求扩展特征，以使得分类处理对应得到的分类结果与业务需求匹配。本发明应用于优化执行文本分类处理。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种对文本进行分类的方法及装置。

背景技术

随着科技的不断创新发展，机器学习可以被应用于判断文本的类别。目前，利用机器学习进行文本分类的主要流程包括：首先，利用已标注类别的文本进行训练文本分类模型，其次，再利用该文本分类模型对未标注类别的原始文本进行处理来预测其所归属类别，从而完成对原始文本执行分类的目的。然而，在将文本分类模型应用到不同的具体业务中时，由于不同业务涉及的内容可以是千差万别的，因而若仅用一个通用的文本分类模型是不能满足不同业务的需求的，但是若对每个具体的业务都训练一个文本分类模型，这不仅耗费大量成本，还将使得对原始文本执行分类的过程变得繁琐、过于冗余、效率低。

发明内容

有鉴于此，本发明提供一种对文本进行分类的方法及装置，主要目的在于优化对原始文本执行分类的处理流程，使得分类结果更贴近不同业务的需求，提高分类结果的质量，同时也大大提高分类效率。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明提供了一种对文本进行分类的方法，该方法包括：

判断待执行分类处理的文本数据是否与预置强规则逻辑匹配，所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别；

若是，则根据所述预置强规则逻辑对应的匹配结果，确定所述文本数据的分类；

若否，则通过预置文本分类模型对所述文本数据执行分类处理，所述预置文本分类模型包含预置弱规则逻辑，所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征，以使得分类处理对应得到的分类结果与所述业务需求匹配。

可选的，所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果，所述规则本体是以正则表达式进行编写的。

可选的，所述判断待分类的文本数据是否与预置强规则逻辑匹配，包括：

获取每条所述规则本体对应的正则表达式信息，所述正则表达式信息包含正则表达式的筛选逻辑；

根据所述正则表达式的筛选逻辑对所述文本数据进行筛选处理；

判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本；