[发明专利]基于网络度量指标的文档分类方法有效
申请号: | 201410215328.5 | 申请日: | 2014-05-21 |
公开(公告)号: | CN103970888B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 魏墨济;杨子江;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王彦 | 申请(专利权)人: | 山东省科学院情报研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南泉城专利商标事务所37218 | 代理人: | 褚庆森 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,样本训练阶包括a).样本采集;b).文本分词;c).词性分析;d).去除虚词和人名;e).统计词频;f).构建特征集合;g).构建特征网络的顶点;h).构建特征网络的边;i).计算平均度;j).计算聚类系数;k).计算特征路径长度;l).获取网络度量指标的取值区间;文档分类包括m).待分类文档处理;n).文档分类的判断。本发明的文档分类方法,分类准确、效率高,解决了现有分类方法无法将科技文献、小说和散文区分开来的问题,为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。 | ||
搜索关键词: | 基于 网络 度量 指标 文档 分类 方法 | ||
【主权项】:
一种基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,所述样本训练阶段通过以下步骤来实现:a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;b).文本分词,采用现有基于词典的分词方法对每篇文档进行分词,获取文档所包含的词汇;c).词性分析,在分词的过程中,同时为文档的每个句子构建语法树,分析句子中每个分词的词性,并对分词的词性进行标注;d).去除虚词和人名,为了突出文档所要表达的语义,将词汇中的虚词和人名去除,以获取不包含虚词和人名的文档词汇;e).统计词频,统计步骤d)中所获取的不包含虚词和人名的词汇中每个分词出现的次数,获取分词的词频,将分词和对应的词频作为文档的特征;f).构建特征集合VD,为了尽可能多的涵盖文本内容并减小构建网络的计算量,对每篇文档按词频数量从多至少选取前25%~45%的分词作为文档的特征集合VD;g).构建特征网络的顶点,设D是一篇文档,S是文档D的句子集合,VD是文档D的特征集合,S={s1,s2…,sl,…sq},VD={v1,v2…,vi,…vn},其中,sl为文档D中的句子,1≤l≤q;vi为文档D中的分词,1≤i≤n;以文档的特征集合VD中的每个分词为网络顶点构建特征网络,形成特征网络的顶点集合VG={v1,v2…,vi,…vn};h).构建特征网络的边,任意选取网络顶点集合VG的两个顶点vi和vj,如果其同时出现于文档D句子集合S中的任意一个句子sl中,则为这两个顶点之间建立一条网络边ek(vi,vj),直至所有任意两个网络顶点判断完毕,所形成的网络边集合为EG={e1,e2…,ek,…em},1≤k≤m;通过顶点和边的建立,就形成了顶点为VG、边为EG的文档特征网络;i).计算网络的平均度,通过公式(1)计算出文档特征网络的网络平均度Ave_Degree:Ave_Degree=1nΣi=1ndegreei---(1)]]>其中,n为网络顶点的数目,degreei为顶点vi的度数,其数值为与顶点vi相关联的边的条数;通过公式(1)可计算出样本集合中每篇文档所对应网络平均度的度量指标;j).计算网络的聚类系数,聚类系数表征了一个点的邻节点之间相互连接的程度,说明了网络中的顶点之间结集成团程度的系数;首先通过公式(2)求取单个顶点的聚类系数CCvi:CCvi=sumkCk2=2sumkk(k-1)---(2)]]>其中,k为顶点vi所拥有的边数,sumk为顶点vi的所有k个邻居顶点所拥有边数的和;然后通过公式(3)计算出网络的聚类系数CCG:CCG=1nΣi=1nCCvi---(3)]]>其中,CCvi为顶点vi的聚类系数;通过公式(3)可计算出样本集合中每篇文档所对应网络的聚类系数的度量指标;k).计算网络的特征路径长度,连通网络中任意两个顶点的最少边数,称为这两个顶点的路径长度,网络中所有顶点对的路径长度的平均值,称为网络的特征路径长度;首先通过Dijstra算法得到文档特征网络中任意两个顶点vi和vj之间的最短路径长度dist(i,j),然后根据公式(4)计算出网络的特征路径长度Ave_Distance:Ave_Distance=2n(n-1)Σi≤nΣj>idist(i,j)---(4)]]>通过公式(4)可计算出样本集合中每篇文档所对应特征网络的特征路径长度的度量指标;l).获取各类文档网络度量指标的取值区间,对于训练样本中的所有文档均执行步骤b)至步骤k),以获取所有文档的网络度量指标;按照科技文献、小说和散文分别对网络度量指标进行归类,统计每类文档的三个网络度量指标的取值范围,归纳得到不同类文档各个网络度量指标的规律性取值区间,直至各类网络度量指标的取值区间满足精度要求,将其作为待分类文档的分类标准;设科技文献、小说和散文的网络平均度的取值区间分别为[De1,De2)、[De3,De4)、[De5,De6),聚类系数的取值分别为[CC1,CC2)、[CC3,CC4)、[CC5,CC6),特征路径长度的取值分别为[Di1,Di2)、[Di3,Di4)、[Di5,Di6);所述文档分类阶段通过以下步骤来实现:m).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤k)中的方法对待分类的文档进行处理,求取待分类电子文档的网络平均度、聚类系数和特征路径的长度,分别记为De′、CC′和Di′;n).文档分类的判断,根据步骤m)中求取的待分类文档的网络平均度、聚类系数和特征路径的长度,判断De′、CC′和Di′落入的区间所对应的文档类别,采用投票制将待分类文档归入相应的文档类别中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410215328.5/,转载请声明来源钻瓜专利网。
- 上一篇:铸坯生产装置
- 下一篇:一种造型机复式储砂斗