[发明专利]一种基于文档长度的实例加权方法及文本分类方法有效
申请号: | 201510395998.4 | 申请日: | 2015-07-08 |
公开(公告)号: | CN105022812B | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 蒋良孝;王沙沙;李超群 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉华旭知识产权事务所 42214 | 代理人: | 刘荣;周宗贵 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于文档长度的实例加权方法,首先计算每个训练实例的文档长度,然后利用文档长度计算各个训练实例的权值。本发明同时提供了依托于该基于文档长度的实例加权方法的多项式朴素贝叶斯文本分类方法、依托于该基于文档长度的实例加权方法的补集朴素贝叶斯文本分类方法,以及依托于该基于文档长度的实例加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法。本发明改善了现有朴素贝叶斯文本分类器的分类精度,同时维持了现有朴素贝叶斯文本分类器的简洁性和时间复杂度。 | ||
搜索关键词: | 一种 基于 文档 长度 实例 加权 方法 文本 分类 | ||
【主权项】:
1.一种基于文档长度的实例加权方法,其特征在于包括以下步骤:(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为文档d的词库的大小,即文档d中所有不同单词的数目;训练文档集D中的一个文档即一个实例;利用以下公式计算该训练文档集D中各个文档的长度:
其中,dlj表示D中第j篇文档的长度,fji是第j篇文档中单词wi的频率;(2)通过以下公式计算训练文档集D中各个文档的权值:
其中,Wj表示第j篇文档的权值,dlmax表示训练文档集D中所有文档长度的最大值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510395998.4/,转载请声明来源钻瓜专利网。
- 上一篇:信息拦截方法及装置
- 下一篇:一种二进制定值区间匹配方法