[实用新型]学术文献自动分类系统有效
申请号: | 200920151682.0 | 申请日: | 2009-04-22 |
公开(公告)号: | CN201654779U | 公开(公告)日: | 2010-11-24 |
发明(设计)人: | 张振海;罗霄 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 孙明岩 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学术 文献 自动 分类 系统 | ||
1.一种面向中图法的学术文献自动分类系统,其特征在于,该学术文献自动分类系统包括基础数据服务器、特征选择器、训练器和分类器,其中,
基础数据服务器分别与特征选择器、训练器和分类器相连接,用于以数据库的形式存储学术文献文本,所述学术文献文本包括训练文本和待分类文本;
特征选择器进一步与训练器相连接,用于从基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;
训练器进一步与分类器相连接,用于从基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且
分类器分别与基础数据服务器和训练器相连接,用于从基础数据服务器读取待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。
2.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述特征选择器进一步包括:
读取单元,与计算单元相连接,用于从所述基础数据服务器中读取所述训练文本;
计算单元,进一步与选择单元相连接,用于计算所述训练文本中的所有词语在所述各个分类号下的权重;
选择单元,进一步与所述训练器相连接,用于对所述权重进行排序和筛选从而得到特征词词典。
3.根据权利要求2所述的学术文献自动分类系统,其特征在于,所述特征选择器进一步包括:
统计单元,分别与所述读取单元与所述计算单元相连接,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;
判断单元,分别与所述计算单元和所述选择单元相连接,用于判断所述训练文本中的词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如果“否”,则将未进行计算的词语发送到所述计算单元进行计算。
4.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述训练器进一步包括:
读取单元,与查找单元相连接,用于从所述基础数据服务器中读取所述训练文本;
查找单元,进一步与统计单元相连接,用于利用所述特征词词典查找所述训练文本中的特征词;
统计单元,进一步与计算单元相连接,用于统计所述特征词的对应分类号并统计所述训练文本中出现所述特征词的文档数量以及在所述训练文本的篇名、中文关键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;
计算单元,进一步与生成单元相连接,用于根据所述特征词在不同字段位置的出现数量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序;
生成单元,进一步与所述分类器相连接,用于将所述词形、所述分类号、所述训练文本中出现所述特征词的文档数量、所述权重存入所述词语-分类号映射词典。
5.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述分类器进一步包括:
读取单元,与分词单元相连接,用于从所述基础数据服务器中读取所述待分类文本;
分词单元,进一步与计算单元相连接,用于根据所述特征词词典对所述待分类文本进行分词,获得所述待分类文本中的特征词;
计算单元,进一步与分类单元相连接,用于计算所述特征词的权重并根据所述词语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类文本中的所有特征词对应的每个分类号的总权重;
分类单元,进一步与所述基础数据服务器相连接,用于对所述计算单元得到的所述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出所述分类号。
6.根据权利要求5所述的学术文献自动分类系统,其特征在于,所述分类器进一步包括:
统计单元,分别与所述分词单元与所述计算单元相连接,用于统计所述特征词在所述待分类文本中的出现频度并统计所述特征词的文本频度,并将统计值发送到所述计算单元。
7.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述基础数据服务器中的训练文本和待分类文本以统一的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,训练文本的分类号是已知的,待分类文本的分类号初始为空。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200920151682.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:USB Key装置
- 下一篇:一种有四个测量盘的二量程电压测量装置