[发明专利]文本分类方法及装置在审
| 申请号: | 201811471905.1 | 申请日: | 2018-12-03 |
| 公开(公告)号: | CN109558489A | 公开(公告)日: | 2019-04-02 |
| 发明(设计)人: | 赵卓成;马奥;吴明;陈英华;章祥 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 邓超 |
| 地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据结果 策略匹配 文本分类 分类处理 预先生成 袋库 预设 匹配 数据处理技术 比对结果 输出匹配 数据分类 输出 比对 构建 扫描 | ||
本公开提供一种文本分类方法及装置,涉及数据处理技术领域。本公开提供的文本分类方法及装置,基于预先构建的词袋库预先生成策略匹配库,以使策略匹配库包括词袋库中各词袋的关注词,并通过预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;并计算输出的数据结果的参量值,将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内,在判断过后,输出在预设的误差范围内数据结果,并进行分类处理,实现了快速对输入数据的分类处理,提高了数据分类的效率。
技术领域
本公开涉及数据处理技术领域,具体而言,本公开涉及一种文本分类方法及装置。
背景技术
随着大数据时代的发展,在一些需要处理和分析海量信息的高性能、高实时性的系统中,由于数据过于庞大,因此更需要对数据流量进行分类过滤,快速获取需要处理的文本数据,但是,目前,对于文本的分类,往往需要对输入的文本进行预处理、提取特征等操作,严重影响分类的效率。
发明内容
有鉴于此,本公开提供一种文本分类方法及装置。
本公开提供一种文本分类方法,所述方法包括:
基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。
计算得到输出的数据结果的参量值。
将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内。
输出在所述预设的误差范围内的数据结果,并进行分类处理。
进一步的,所述策略匹配库通过以下步骤生成:
输入预先构建的词袋库并在匹配引擎中注册策略库。
取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
进一步的,所述词袋库通过以下的步骤构建:
输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词。
对各所述分词进行特征提取,得到多个关注词。
对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表。
基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋。
对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
进一步的,对各所述分词进行特征提取,得到多个关注词的步骤包括:
对各所述分词计算卡方统计值。
根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
进一步的,对各类文档对应词袋中的关注词计算参量值的步骤包括:
对各类文档对应词袋中的关注词计算逆文档频率以及词频。
根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。
进一步的,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811471905.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于数据对犯罪行为的多维度分析方法
- 下一篇:一种提高期刊学术影响力的方法





