[发明专利]中国作者所发英文文献的作者机构信息抽取方法有效
申请号: | 201410437424.4 | 申请日: | 2014-08-29 |
公开(公告)号: | CN104881398B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 王继民;郭鑫;姜庆远;王一博;程煜华 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06F17/28 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙)11360 | 代理人: | 朱红涛 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中国 作者 英文 文献 机构 信息 抽取 方法 | ||
技术领域
本发明涉及从文本中进行信息抽取的技术与方法,特别涉及一种根据作者机构的中文名称进行准确检索和统计其英文文献的方法。
背景技术
Web of Science(简称WOS)是美国Thomson Scientific公司基于WEB开发的一个数据库产品,包括三大引文库(SCI、SSCI和A&HCI)和两个化学数据库(CCR、IC)。世界各国科研人员发表的各领域的优秀学术论文多被该数据库收录,许多学者也以该数据库收录论文的多少作为衡量自己水平的标志之一。Engineering Index(简称EI)是另一个著名的文献数据库检索系统,它主要收录工程技术领域的文献。
在WOS或EI等文献数据库中,机构名称包含在地址信息中,它们所收录的中国学者的文章,在著录上存在不规范的现象,地址信息著录问题尤为突出。这给国内的学者检索和利用数据库中的文章带来了很大的障碍,导致检索结果不准确,出现漏检、重检和误检等问题。
英文文献机构规范在下列四种场合有重要价值:
1、文献查阅者在查找英文文献的过程中,会按照作者机构字段进行检索,获取某一机构发表的所有文章。
2、以某机构名为检索关键词进行检索是进行文献统计的最重要的检索策略之一,国内的很多单位,包括政府决策和教育主管部门也将WOS或EI等数据库中所收录的论文数作为评判各机构的科研实力和科研人员绩效的重要指标。在对机构进行考核评价时,需要查找该机构的科研人员发表的所有文章。
3、不同的机构之间进行评比时,需要统计不同机构各自在WOS或EI等数据库中的发文量,需要对机构名称进行规范、区分。
4、文献查阅者在下载下来所需的文献题录信息后,会查看文章的发文机构,并可能需要根据机构信息进行分类管理。
目前对英文文献机构名称不规范的研究,都集中在如何通过构造检索式来避免机构名称不规范造成的影响,以及不规范现象的原因及其改善,没有学者讨论如何把不规范的机构名称通过技术处理转变为规范的机构名称。
发明内容
本发明的目的是提供一种抽取和处理英文文献中中国作者的机构信息,并将其用于检索的方法,以提高相关检索的查全率和查准率。
本发明解决上述技术问题的技术方案是:
一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,其特征是,包括以下步骤:
步骤一:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;
步骤二:从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;
步骤三:对作者机构信息进行处理,将其对应到作者机构的标准中文名称,具体包括以下步骤:
3.1)将同一条题录信息中的不同机构分成多个机构条目,分别进行以下处理;
3.2)根据机构条目中包含的地址信息进行判断,如果属于中国的机构,继续进行后面的处理,否则舍弃该条记录;
3.3)对机构条目进行数据处理,删除掉机构条目中包含的作者名称等无关信息;根据保存同义词映射关系的数据字典对数据进行同义转换;
3.4)按照“大学”>“科学院”>“其他”的优先级顺序,抽取机构名称;
3.5)通过搜索引擎获取作者机构的标准英文名称;
3.6)通过搜索引擎或机器翻译工具将标准英文名称翻译为对应的中文名称;
步骤四:将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。
优选的:
所述的信息抽取方法,其特征是,步骤一中,根据学科门类或主题领域,从外文文献数据库中检索出中国作者发表的英文论文,再利用所述的文献数据库系统提供的下载功能将这些论文的题录信息下载下来。
所述的信息抽取方法,其特征是,步骤3.4)中,对机构条目进行分类,针对不同类别使用不同的数据处理方法,通过匹配特定的关键词,去除机构条目中包含的机构下属部门信息,最后抽取出机构名称。
所述的信息抽取方法,其特征是,步骤3.5)中,将机构条目处理结果中的缩写补充为全称;将补全后的结果输入搜索引擎中进行搜索,抓取搜索结果的标题,获得机构标准英文名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410437424.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置