[发明专利]一种基于半监督的主题模型文本分类方法在审
申请号: | 201610008920.7 | 申请日: | 2016-01-07 |
公开(公告)号: | CN105677856A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 杨璐;王炳蔚;郑丽敏;黄斌 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京卫平智业专利代理事务所(普通合伙) 11392 | 代理人: | 董琪 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 主题 模型 文本 分类 方法 | ||
技术领域
本发明涉及文本分类领域,尤其涉及一种基于半监督的主题模型的文本分类方法。
背景技术
文本挖掘是从大量文本数据中获取有效模式的过程,涵盖信息技术、文本分析、模式识别等诸多领域。文本分类属于文本挖掘领域,是指按照预先设定的主题类别,为文档集合中的每个文档确定一个类别的过程。对于中文文本而言,词与词之间没有明显的切分标志,因此需要对中文文本进行分词。在分词过程中,针对文本集合的属性特征需设置匹配词的专业词表。完成分词后的文本需要进行停用词删除、建立文本特征矩阵的步骤,将文本数据转化为计算机可计算的数值矩阵类型。近年来,众多的统计方法和机器学习方法应用于自动文本分类,包括支持向量机、Boosting算法、概率模型等。
文本分类的关键是衡量各文本与所需模式间的相似性,概率潜在语义分析是针对文本隐含主题的建模方法。主题表现为一系列与主题概念密切相关的词,能够代表这个主题。应用词汇表上词语的条件概率分布,与主题密切相关的词,条件概率越大。一般概率潜在语义分析方法通过计算各词属于主题的条件概率完成文本分类功能。
发明内容
本发明的目的是提供一种基于半监督的主题模型的文本分类方法,实现基于领域本体的大规模文本数据中有效信息的自动获取。为解决上述技术问题,本发明的主要技术内容如下:
一种基于领域本体的潜在语义扩展算法。传统的文本分类算法利用文本中的关键词描述文本与类别间距离。而关键词存在信息量少,难以全面表征类别信息的缺点。由于表征一篇文档是否相关的词并不全等于关键词集,因此也需要提取出关键词集中不包含的约束。领域本体作为知识描述方法较好的体现了领域内知识的不同维度。本方法的特征在于,首先定义描述分类文本的关键词词组,该词组来源于领域本体的不同属性类,利用关键词词组将待分类文本中的词全部初始化为噪声。基于公式
式中,k的取值范围为{0,1},即代表噪声或有效信息,m为文档集内文档数目,x为词条的编号,用于区分不同的词。p(x)表示该词属于有效信息的概率,nkt代表关键词x分配为有效信息的次数,nktSum代表有效信息的总词数,nmk代表文档m中属于有效信息的词的个数,nmkSum代表文档m的总词数,con代表关键词x对所属分类别的贡献度。参数C表示文档m中,描述领域本体不同属性维度的词的类数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610008920.7/2.html,转载请声明来源钻瓜专利网。