[发明专利]一种学术文本词汇功能框架构建方法在审
申请号: | 201710203905.2 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107015967A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 程齐凯;陆伟;杨韵寒 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N5/02 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学术 文本 词汇 功能 框架 构建 方法 | ||
技术领域
本发明属于智能识别技术领域,具体涉及一种学术文本词汇功能框架构建方法。
背景技术
随着科研社区规模的快速扩大和学术文献数量的急剧增长,掌握一个学科的研究进展和知识脉络已经变得越来越困难。为了更好的了解和组织科学知识,人们需要借助学术信息检索工具和科学计量工具的帮助。然而,传统的学术信息检索和知识管理主要考虑的是文档级别的信息,在文档表示上也多采用词袋模型。这样的处理带来了计算上的便利,但同时也失去了对学术文本的深层语义理解。
发明内容
为了解决上述问题,本发明提出了一种学术文本词汇功能框架构建方法。
本发明所采用的技术方案是:一种学术文本词汇功能框架构建方法,其特征在于,包括以下步骤:
步骤1:定义学术文本词汇功能的概念和类别;
步骤2:构建学术文本词汇功能的框架。
词汇功能框架的提出帮助研究者明确了词汇功能的界定范围,不但使得文献标注的效率有所提高,而且为学术文本词汇功能自动识别任务提供了理论框架和基础。基于词汇功能框架的自动识别任务应有更高的效率和更好的效果。
附图说明
图1为本发明实施例的领域无关词汇功能分类体系图;
图2为本发明实施例的学术文本词汇功能框架示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本专利提出的学术文本词汇功能框架构建方法,作为面向词汇功能的学术文本分析的基础。学术文本词汇功能(以下如不做特别声明,简称为词汇功能)是指词汇或者术语在文本中所承担的角色。词汇的功能可能多种多样,本专利关注的是词汇在学术文本中所承担的角色,而不去分析其在语法层面或者其它通用语言理解任务中的所承担的功能定义。
需要说明的是,在语言学理论中,词汇与术语是不同的两个概念,术语由词汇构成。在文专利中,具有独立意义的最小单元往往是术语(Phrase)。本专利不严格区分“词汇”和“术语”,以下如果不做特别说明,“词汇”同“术语”将不做区别。
学术文本的词汇功能是对词汇在学术文本中角色的定义,严格来说,术语对语用的定义。在自然语言理解研究中,人们一般从三个角度对语言进行建模,分别是语法、语义和语用。语法是对语言结构的表示,自然语言处理中的句法分析就属于语法分析任务;语义则是对符号和内容关系进行处理,语义角色标注是典型的语义分析任务;语用则考虑到语言和人也即符号与人的关系,分析的是人在使用符号时的所表达的意义。本专利所指的“学术文本的词汇功能”既有语义分析的成分,也有语用分析的成分。某些词汇是对工具、数据、定理、公式的指代,这时候词汇的功能表现的是语义层面的内容,也即符号与内容的对应。另一些词汇功能,如工具、方法等等,并不能与具体的内容相对应,一个词汇表现为什么功能,是由作者和读者基于对文本的理解确定的,这时,词汇功能表现出的是语用的意义。
面对日益增多的科学文献,从词汇功能角度对学术文本进行深度语义分析已经成为必要。基于词汇功能框架的学术文本的词汇功能分析可以帮助人们快速的查找和理解科学文献,挖掘科学概念之间的关联。本专利将对学术文本的词汇功能进行界定,并构建学术文本词汇功能框架,为词汇功能分析做基础。
最早出现的直接相关研究成果是Kondo等发表于2009年的研究成果。Kondo和Nanba等发表于2009的文章和发表于2010年的文章最早提出将学术文本中的词汇根据其功能进行分类,Kondo等人的研究将处理对象限定为学术文献的标题,将其中词汇的功能分为“方法(Method)”、“问题(Goal)”、“其它(Other)”三类,例如,文本“本文将支持向量机用于文本分类”中,“支持向量机”构成了方法类词汇,“文本分类”则被标记为“问题”。
Gupta和Manning在2011年发表在IJNLP会议上的文献中将词汇功能定义为三类:话题(Focus)、技术方法(Technique)和应用(Application)。
在Gupta的工作基础上,Tsai等将词汇功能分为“方法(Technique)”和“应用(Application)”两类,前者标明文献使用的方法技术,后者是方法技术所解决的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203905.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视觉传达用多功能手绘板
- 下一篇:触控显示面板和触控显示装置