[发明专利]基于论元特征模型的文献术语识别方法和系统有效
申请号: | 201610053117.5 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740230B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 刘耀;靳玮 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 王增鑫 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 模型 文献 术语 识别 方法 系统 | ||
1.一种基于论元特征模型的文献术语识别方法,其特征在于,包括:
对待识别文献的每个句子进行语义角色标注,确定出该句子的论元;
对于所述待识别文献的每个句子的每个论元,计算出该论元与预先训练出的论元特征模型中的样本论元之间的相似度;确定出相似度最高的样本论元的类型,作为该论元中的术语的类型;
若确定出所述待识别文献的句子中的两个论元,分别与两个相搭配的样本论元之间的相似度都超过预设的相似度阈值,则将该两个样本论元之间的搭配关系,作为所述两个论元各自的术语之间的关系;
所述样本论元特征模型是根据如下方法预先训练出的:
确定出多个样本文献的词语的属性信息;
对每个样本文献的每个句子进行依存句法分析,确定出该句子的短语之间的依存关系;
对每个样本文献的每个句子进行语义角色标注,确定出该句子的样本论元;
对于每个样本文献的每个句子,根据该句子的样本论元相关谓词和/或介词的属性信息、以及样本论元的短语与谓词和/或介词之间的依存关系,确定出该句子的样本论元的类型和样本论元之间的搭配关系;
根据各样本文献的样本论元及其类型和样本论元之间的搭配关系,生成样本论元特征模型。
2.根据权利要求1所述的方法,其特征在于,所述根据各样本文献的样本论元及其类型和样本论元之间的搭配关系,生成样本论元特征模型,包括:
对各样本文献的类型相同的样本论元进行归类;对于每个类型的每个样本论元,根据该样本论元涉及的搭配关系,确定出与该样本论元相搭配的样本论元;
将同一类型的各样本论元、与所述各样本论元分别相搭配的样本论元、以及对应的搭配关系,组成该类型的样本论元的特征集;
将各类型的样本论元的特征集,组成样本论元特征模型。
3.根据权利要求1-2任一所述的方法,其特征在于,所述各类型的样本论元包括:
主体论元、客体论元、凭借论元、以及环境论元。
4.一种建模方法,其特征在于,包括:
确定出多个样本文献的词语的属性信息;
对每个样本文献的每个句子进行依存句法分析,确定出该句子的短语之间的依存关系;
对每个样本文献的每个句子进行语义角色标注,确定出该句子的样本论元;
对于每个样本文献的每个句子,根据该句子的样本论元相关谓词和/或介词的属性信息、以及样本论元的短语与谓词和/或介词之间的依存关系,确定出该句子的样本论元的类型和样本论元之间的搭配关系;
根据各样本文献的样本论元及其类型和样本论元之间的搭配关系,生成样本论元特征模型。
5.根据权利要求4所述的方法,其特征在于,所述根据各样本文献的样本论元及其类型和样本论元之间的搭配关系,生成样本论元特征模型,包括:
对各样本文献的类型相同的样本论元进行归类;对于每个类型的每个样本论元,根据该样本论元涉及的搭配关系,确定出与该样本论元相搭配的样本论元;
同一类型的各样本论元、与所述各样本论元分别相搭配的样本论元、以及对应的搭配关系,组成该类型的样本论元的特征集;
各类型的样本论元的特征集,组成样本论元特征模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610053117.5/1.html,转载请声明来源钻瓜专利网。