[发明专利]一种学术文本词汇功能框架构建方法在审
申请号: | 201710203905.2 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107015967A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 程齐凯;陆伟;杨韵寒 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N5/02 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学术 文本 词汇 功能 框架 构建 方法 | ||
1.一种学术文本词汇功能框架构建方法,其特征在于,包括以下步骤:
步骤1:定义学术文本词汇功能的概念和类别;
步骤2:构建学术文本词汇功能的框架。
2.根据权利要求1所述的学术文本词汇功能框架构建方法,其特征在于:步骤1中所述学术文本词汇功能的概念是指这个词汇作为一个符号在学术文本环境下所对应的内容或者用途;
所述学术文本词汇功能的类别分为领域无关词汇功能和领域相关词汇功能两类;所述领域无关词汇包括问题和方法,所述问题是科研工作需要解决的工作对象,所述方法是用于解决问题的途径、手段;在文档层面,所述领域无关词汇存在“核心问题”和“核心方法”两个类别,而在片段层面,所述领域无关词汇则存在一般问题、一般方法、其它问题、其它方法四个类别。
3.根据权利要求2所述的学术文本词汇功能框架构建方法,其特征在于:步骤2中所述构建学术文本词汇功能的框架,由领域相关词汇功能和领域无关词汇功能组成,所述领域相关词汇功能具有明确的类目,所述领域无关词汇功能在不同领域之间有所不同。
4.根据权利要求1-3任意一项所述的学术文本词汇功能框架构建方法,其特征在于:检验框架构建效果,包括以下步骤:
步骤A1:构建学术文本词汇功能标注数据集;
步骤A2:标注流程与规范;
其中:Method用于标注方法、技术与解决问题的途径;Application用于标注研究的应用点、或者所解决的问题;MainMethod用于标注在整个研究工作中使用的主要方法、技术或解决问题的途径;MainApplication用于标注整个研究工作主要处理的应用点、解决的问题;OtherMethod用于标注不直接参与研究工作的,作为背景存在的方法;OtherApplication用于标注不直接参与研究工作的,作为背景存在的问题;DataSet用于标注研究中采用的数据、数据集;Tool用于标注研究中开发的或者应用的工具、系统;Measure用于标注研究中采用的指标;
标注的文本在被标注之前经过术语识别的处理,使用计算机领域词典,利用最大正向匹配方法对领域术语进行查找,并将其标记为一个词汇单元,标注以组块为单位;在组块分析时,对标题使用了OpenNLPChunker,而对摘要使用Stanford Parser的组块分析功能;
步骤A3:标注数据集;
步骤A4:随机挑选若干篇文档进行标注,然后检验其一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203905.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视觉传达用多功能手绘板
- 下一篇:触控显示面板和触控显示装置