[发明专利]文本分类方法及装置在审

申请号：	201811471905.1	申请日：	2018-12-03
公开（公告）号：	CN109558489A	公开（公告）日：	2019-04-02
发明（设计）人：	赵卓成;马奥;吴明;陈英华;章祥	申请（专利权）人：	南京中孚信息技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	邓超
地址：	210000 江苏省南京市浦口区江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据结果策略匹配文本分类分类处理预先生成袋库预设匹配数据处理技术比对结果输出匹配数据分类输出比对构建扫描
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种文本分类方法及装置，涉及数据处理技术领域。本公开提供的文本分类方法及装置，基于预先构建的词袋库预先生成策略匹配库，以使策略匹配库包括词袋库中各词袋的关注词，并通过预先生成的策略匹配库，对输入的数据进行扫描匹配，输出匹配后的数据结果；并计算输出的数据结果的参量值，将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对，判断比对结果是否在预设的误差范围内，在判断过后，输出在预设的误差范围内数据结果，并进行分类处理，实现了快速对输入数据的分类处理，提高了数据分类的效率。

技术领域

本公开涉及数据处理技术领域，具体而言，本公开涉及一种文本分类方法及装置。

背景技术

随着大数据时代的发展，在一些需要处理和分析海量信息的高性能、高实时性的系统中，由于数据过于庞大，因此更需要对数据流量进行分类过滤，快速获取需要处理的文本数据，但是，目前，对于文本的分类，往往需要对输入的文本进行预处理、提取特征等操作，严重影响分类的效率。

发明内容

有鉴于此，本公开提供一种文本分类方法及装置。

本公开提供一种文本分类方法，所述方法包括：

基于预先生成的策略匹配库，对输入的数据进行扫描匹配，输出匹配后的数据结果；所述策略匹配库基于预先构建的词袋库生成，所述词袋库中包括多个词袋，各所述词袋包括多个关注词以及各所述关注词的参量值，所述策略匹配库包括各所述词袋的关注词。

计算得到输出的数据结果的参量值。

将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对，判断比对结果是否在预设的误差范围内。

输出在所述预设的误差范围内的数据结果，并进行分类处理。

进一步的，所述策略匹配库通过以下步骤生成：