[发明专利]基于论元特征模型的文献术语识别方法和系统有效
申请号: | 201610053117.5 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740230B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 刘耀;靳玮 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 王增鑫 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 模型 文献 术语 识别 方法 系统 | ||
本发明实施例提供了论元特征模型及建模方法、文献术语识别方法和系统,所述方法包括:对待识别文献的每个句子进行语义角色标注,确定出该句子的论元;对于待识别文献的每个句子的每个论元,计算出该论元与预先训练出的论元特征模型中的样本论元之间的相似度;确定出相似度最高的样本论元的类型,作为该论元中的术语的类型;若确定出待识别文献的句子中的两个论元,分别与两个相搭配的样本论元之间的相似度都超过预设的相似度阈值,则将该两个样本论元之间的搭配关系,作为两个论元各自的术语之间的关系。本发明实施例,可以大大降低遗漏术语的几率,提升了术语的识别效率,整个过程自动执行,大大减少了用户的工作量,提升了用户体验。
技术领域
本发明涉及自然语言处理技术领域,具体而言,本发明涉及一种基于论元特征模型的文献术语识别方法和系统。
背景技术
随着科技的发展和社会的进步,知识量增加迅速,作为知识载体的专利文献、论文、报告等文献日益增多。随着网络交互的迅猛发展,越来越多的文献被上传至网络,供用户检索学习。本文中的文献指得是电子化的文献。
用户可以从网络上搜索相关的文献,通过阅读文献获取文献中记载的各种术语,对术语进行分类得到术语的类型,并分析出术语之间的关系,从而获得相关的知识。术语(terminology)是在特定学科领域用来表示概念的称谓的集合,在我国又称为名词或科技名词(不同于语法学中的名词)。术语是通过语音或文字来表达或限定科学概念的约定性语言符号。
然而,当文献的数目巨大时,依靠用户人工逐个阅读文献逐一识别出术语的类型以及术语之间的关系,工作量巨大,耗时长,术语识别的效率低下,甚至在用户有生之年都无法完成对选定的文献的识别。因此,技术人员开发了辅助用户识别文献术语的方法。
一种基于词表的文献术语识别方法,包括:利用预设的词表,从文献中抽取术语后,利用人工方式确定出术语的类型和术语之间的关系。
另一种基于术语模板的文献术语识别方法,包括:利用术语模板,从文献中提取出术语之间的关系。
然而,本发明的发明人发现,利用现有的文献术语识别方法从文献中识别出术语的类型和术语之间的关系,存在遗漏术语几率较大或者术语类型和术语之间的关系的识别效率低下的问题。
发明内容
本发明针对现有的文献术语类型和术语之间的关系的识别方式的缺点,提出一种基于论元特征模型的文献术语识别方法和系统,用以解决现有技术存在遗漏术语几率较大或者术语类型和术语之间的关系的识别效率低下的问题。
本发明的实施例根据一个方面,提供了一种基于论元特征模型的文献术语识别方法,包括:
对待识别文献的每个句子进行语义角色标注,确定出该句子的论元;
对于所述待识别文献的每个句子的每个论元,计算出该论元与预先训练出的论元特征模型中的样本论元之间的相似度;确定出相似度最高的样本论元的类型,作为该论元中的术语的类型;
若确定出所述待识别文献的句子中的两个论元,分别与两个相搭配的样本论元之间的相似度都超过预设的相似度阈值,则将该两个样本论元之间的搭配关系,作为所述两个论元各自的术语之间的关系。
本发明的实施例根据另一个方面,还提供了一种建模方法,包括:
确定出多个样本文献的词语的属性信息;
对每个样本文献的每个句子进行依存句法分析,确定出该句子的短语之间的依存关系;
对每个样本文献的每个句子进行语义角色标注,确定出该句子的样本论元;
对于每个样本文献的每个句子,根据该句子的样本论元相关谓词和/或介词的属性信息、以及样本论元的短语与谓词和/或介词之间的依存关系,确定出该句子的样本论元的类型和样本论元之间的搭配关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610053117.5/2.html,转载请声明来源钻瓜专利网。