[发明专利]一种隐多项式朴素贝叶斯文本分类方法及装置有效
申请号: | 201910338569.1 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110147447B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 蒋良孝;邵诗琪;陈龙;李超群 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/216 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙丽丽 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种隐多项式朴素贝叶斯文本分类方法及装置,为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响。本发明避免了贝叶斯网络的结构学习,从而降低了由于文本数据的高维性带来的训练时间开销,同时本发明将多条件概率的估计过程推迟到了分类阶段,巧妙地节省了较大的空间开销。本发明提供的隐多项式朴素贝叶斯文本分类模型不仅改善了多项式朴素贝叶斯文本分类模型的分类精度,避免了贝叶斯网络结构学习的时间和空间开销,而且还是一种单一模型学习方法。 | ||
搜索关键词: | 一种 多项式 朴素 斯文 分类 方法 装置 | ||
【主权项】:
1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:(1‑1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;(1‑2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;(1‑3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;(1‑4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:(1‑5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910338569.1/,转载请声明来源钻瓜专利网。