[发明专利]一种基于朴素贝叶斯的文本分类方法有效
申请号: | 201710832802.2 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107391772B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 简海英;吕磊;邓丕;杨谦;王海;袁志刚;陈焕章;吴红;张庆;高峰;刘悠;张威 | 申请(专利权)人: | 国网四川省电力公司眉山供电公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06K9/62;G06Q50/06 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 梁田 |
地址: | 620000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于朴素贝叶斯的文本分类方法,包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词s |
||
搜索关键词: | 一种 基于 朴素 贝叶斯 文本 分类 方法 | ||
【主权项】:
一种基于朴素贝叶斯的文本分类方法,其特征在于,所述方法包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;步骤2:通过对P(w1,...,wn)属性w1,...,wn在训练文本集Di中进行查找,计算出P(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)属性除以训练文本集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di),P(w1,...,wn)为:待分类文本,wn为:文本P(w1,...,wn中的属性,yn为:属性wn在训练文本集Di中出现的次数;步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),P(x|Di)为:Di发生时x发生的概率;步骤4:重复步骤2、3,计算出所有后验概率;步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司眉山供电公司,未经国网四川省电力公司眉山供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710832802.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种图像特效的生成方法和装置
- 下一篇:一种在线文本管理方法和装置