[发明专利]一种基于粗糙集与KNN的文本分类方法及系统有效

专利信息
申请号: 201510230270.6 申请日: 2015-05-08
公开(公告)号: CN106202116B 公开(公告)日: 2020-09-25
发明(设计)人: 朱敏玲 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于粗糙集与KNN(K Nearest Neighbor)算法的文本分类方法及系统,用于对各类文本信息进行分类处理。其采用粗糙集的属性约简算法对待分类的数据进行预处理。然后,通过基于属性序的处理方法和算法进一步解决粗糙集属性约简中的NP‑hard问题。在粗糙集区分矩阵的关键环节正区域计算上利用递减式计算方法,减少等价类的计算工作量;运用去停止词的查表法、位置信息在属性序中的引入及倒排索引的检索方法等进一步来降低系统的运行时间和空间成本。最后基于上述方法构建分类器,分类的准确度、召回率与F值都比较理想,分类速度得到大幅度提升。解决了KNN文本分类器的待分类文本数据维数和计算次数较高,从而导致其耗费的时间和空间成本也很高等问题。
搜索关键词: 一种 基于 粗糙 knn 文本 分类 方法 系统
【主权项】:
一种一种基于粗糙集与KNN的文本分类方法及系统,其特征在于包括以下步骤:1)基础准备:分词、去停止词及英语的词形还原,目的为去除无用信息。2)文本表示:用概念词揭示其内容的独立属性,把文本看作向量空间的一个n维向量(ti1,w(ti1);ti2,w(ti2);…;tin,w(tin)),其中ti1;ti2;…;tin为表示该文本的n个特征,w(tik),k=1,2,…,n是该文本对应第k个特征的权重。在已有的TF‑IDF基础上引入位置因子l,目前取3个位置因子,题、摘要与正文分别是3、2和1。<mrow><mi>W</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>log</mi><mn>2</mn></msub><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>&times;</mo><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mfrac><mrow><mi>N</mi><mo>-</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><msub><mi>tn</mi><mi>t</mi></msub></mrow><mrow><msub><mi>n</mi><mi>t</mi></msub><mo>-</mo><msub><mi>tn</mi><mi>t</mi></msub></mrow></mfrac><mo>)</mo></mrow></mrow><msup><msqrt><munder><mi>&Sigma;</mi><mrow><mi>t</mi><mo>&Element;</mo><mi>d</mi></mrow></munder><mo>[</mo><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>log</mi><mn>2</mn></msub><mi>tf</mi><mrow><mo>(</mo><mi>t</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>&times;</mo><msub><mi>log</mi><mn>2</mn></msub><mrow><mo>(</mo><mfrac><mrow><mi>N</mi><mo>-</mo><msub><mi>n</mi><mi>t</mi></msub><mo>+</mo><msub><mi>tn</mi><mi>t</mi></msub></mrow><mrow><msub><mi>n</mi><mi>t</mi></msub><mo>-</mo><msub><mi>tn</mi><mi>t</mi></msub></mrow></mfrac><mo>)</mo></mrow><mo>]</mo></msqrt><mn>2</mn></msup></mfrac><mo>&times;</mo><mi>l</mi></mrow>其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d中的词频,N为训练文本的总数,nt为训练集中出现t的文本数,分母为归一化因子。tnt为词条t所在的类中出现词条t的文本数目。3)离散化:根据a(x)的值,由小到大排列实例x,x∈U。然后,设xi和xj代表两个相邻实例,开始扫描查找,如果a(xi)=a(xj),则继续扫描。同时,如果决策相同时d(xi)=d(xj),仍然继续扫描,否则得到一个断点c,此时,对于每个候选点c,xi和xj代表两个相邻的属性值,如果有两个以上的决策值出现的频率相同,则|Di|>1,其中Di代表xi所属的等价类所对应的决策中出现频率最多的决策值的集合。最后进行选取判断,如果则不选取此断点,否则选取此断点。4)正区域计算:先分步计算出并同时对Xi进行的判断计算,从而判断出Xi是否属于POSP(Q),再将Xi从原文本集(原论域)中删除,并得到新的论域,而不需再计算等价类及等价类的下近似。此算法在计算得出正区域POSP(Q)的同时也得到了不属于正区域的各样本集的集合NPOSP(Q)。5)约简与训练计算:首先通过抽签标题和摘要的信息中,即在预处理中的文本表示中,通过计算后的权重很容易将文本分类的条件属性C上定义一个完整的序关系“<”。然后,为所有属性分别标上1到|C|的下标,得到属性序SO:c1<c2<…<c|C|。再通过模型训练之后再得到实际的序关系。6)索引与查找:每篇文章都有对应的ID号,设计中也包含了对未知文档类型的创建,不用人工进行创建,系统在搜索中会自动对未知或新加文档类型进行ID的生成。定位方式基于关键词来展开。当以关键词进行定位速度快,节约索引空间。7)分类:把不知类别的文档输入到训练好的分类器模型中进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510230270.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top