[发明专利]文本分类方法及装置在审
| 申请号: | 201811471905.1 | 申请日: | 2018-12-03 |
| 公开(公告)号: | CN109558489A | 公开(公告)日: | 2019-04-02 |
| 发明(设计)人: | 赵卓成;马奥;吴明;陈英华;章祥 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 邓超 |
| 地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据结果 策略匹配 文本分类 分类处理 预先生成 袋库 预设 匹配 数据处理技术 比对结果 输出匹配 数据分类 输出 比对 构建 扫描 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;
计算得到输出的数据结果的参量值;
将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;
输出在所述预设的误差范围内的数据结果,并进行分类处理。
2.根据权利要求1所述的文本分类方法,其特征在于,所述策略匹配库通过以下步骤生成:
输入预先构建的词袋库并在匹配引擎中注册策略库;
取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
3.根据权利要求1所述的文本分类方法,其特征在于,所述词袋库通过以下的步骤构建:
输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词;
对各所述分词进行特征提取,得到多个关注词;
对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;
基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋;
对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。
4.根据权利要求3所述的文本分类方法,其特征在于,对各所述分词进行特征提取,得到多个关注词的步骤包括:
对各所述分词计算卡方统计值;
根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。
5.根据权利要求3所述的文本分类方法,其特征在于,对各类文档对应词袋中的关注词计算参量值的步骤包括:
对各类文档对应词袋中的关注词计算逆文档频率以及词频;
根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。
6.根据权利要求1所述的文本分类方法,其特征在于,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:
根据所述数据结果中的匹配命中的关注词以及该关注词被匹配命中的次数,对匹配命中的关注词计算逆文档频率以及词频;
根据计算得到的逆文档频率以及词频,计算得到所述数据结果中的关注词的参量值。
7.一种文本分类装置,其特征在于,包括计算模块、匹配模块以及分类模块;
所述匹配模块用于基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;
所述计算模块用于计算得到输出的数据结果的参量值;
所述分类模块用于将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;并输出在所述预设的误差范围内数据结果,并进行分类处理。
8.根据权利要求7所述的文本分类装置,其特征在于,所述匹配模块包括第一输入子模块以及生成模块;
所述第一输入子模块用于输入预先构建的词袋库并在匹配引擎中注册策略库;
所述生成模块用于取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811471905.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于数据对犯罪行为的多维度分析方法
- 下一篇:一种提高期刊学术影响力的方法





