[实用新型]学术文献自动分类系统有效
申请号: | 200920151682.0 | 申请日: | 2009-04-22 |
公开(公告)号: | CN201654779U | 公开(公告)日: | 2010-11-24 |
发明(设计)人: | 张振海;罗霄 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 孙明岩 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学术 文献 自动 分类 系统 | ||
技术领域
本实用新型涉及一种计算机和图书情报领域,更具体地说,涉及一种面向中图法的学术文献自动分类系统。
背景技术
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。
《中国图书馆分类法》简称《中图法》,英文译名为Chinese LibraryClassification,英文缩写为CLC,已普遍应用于全国各类型的图书馆,国内主要大型书目、检索刊物、机读数据库,以及《中国国家标准书号》等都著录《中图法》分类号。
目前,各图书馆及数字图书馆对于中文学术期刊的分类均按《中图法》实行。分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低。大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。而且新进人员的培训也耗时耗力。
实用新型内容
为了解决上述问题,根据本实用新型的一方面,提供了一种面向中图法的学术文献自动分类系统,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与连接特征选择器、训练器和分类器,用于以数据库的形式存储学术文献文本,其中包括训练文本和待分类文本;特征选择器进一步连接所述训练器,用于从所述基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步连接所述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且,分类器进一步连接所述基础数据服务器,用于从所述基础数据服务器读取所述待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。
其中,优选地,所述基础数据服务器中的所述训练文本和所述待分类文本以统一的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,所述训练文本的分类号是已知的,所述待分类文本的分类号初始为空。
优选地,所述特征选择器进一步包括:
读取单元,连接计算单元,用于从所述基础数据服务器中读取所述训练文本;
计算单元,进一步连接选择单元,用于计算所述训练文本中的所有词语在所述各个分类号下的权重;
选择单元,进一步连接所述训练器,用于对所述权重进行排序和筛选,得到特征词词典。
其中,优选地,所述特征选择器进一步包括:
统计单元,分别连接所述读取单元与所述计算单元,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;
判断单元,分别连接所述计算单元和所述选择单元,用于判断所述训练文本中的词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如果“否”,则将未进行计算的词语发送到所述计算单元进行计算。
所述学术文献自动分类系统中,优选地,所述训练器进一步包括:
读取单元,连接查找单元,用于从所述基础数据服务器中读取所述训练文本;
查找单元,进一步连接统计单元,用于利用所述特征词词典查找所述训练文本中的特征词;
统计单元,进一步连接计算单元,用于统计所述特征词的对应分类号并统计所述训练文本中出现所述特征词的文档数量,即文档频度,以及在所述训练文本的篇名、中文关键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;
计算单元,进一步连接生成单元,用于根据所述特征词在不同字段位置的出现数量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序。
生成单元,进一步连接所述分类器,用于将所述词形、所述分类号、所述文档频度、所述权重存入所述词语-分类号映射词典。
优选地,所述分类器进一步包括:
读取单元,连接分词单元,用于从所述基础数据服务器中读取所述待分类文本;
分词单元,进一步连接计算单元,用于根据所述特征词词典对所述待分类文本进行分词,获得所述待分类文本中的特征词;
计算单元,进一步连接分类单元,用于计算所述特征词的权重并根据所述词语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类文本中的所有特征词对应的每个分类号的总权重;
分类单元,进一步连接所述基础数据服务器单元,用于对所述计算单元得到的所述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出所述分类号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200920151682.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:USB Key装置
- 下一篇:一种有四个测量盘的二量程电压测量装置