[发明专利]基于论元特征模型的文献术语识别方法和系统有效
申请号: | 201610053117.5 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740230B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 刘耀;靳玮 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 王增鑫 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了论元特征模型及建模方法、文献术语识别方法和系统,所述方法包括:对待识别文献的每个句子进行语义角色标注,确定出该句子的论元;对于待识别文献的每个句子的每个论元,计算出该论元与预先训练出的论元特征模型中的样本论元之间的相似度;确定出相似度最高的样本论元的类型,作为该论元中的术语的类型;若确定出待识别文献的句子中的两个论元,分别与两个相搭配的样本论元之间的相似度都超过预设的相似度阈值,则将该两个样本论元之间的搭配关系,作为两个论元各自的术语之间的关系。本发明实施例,可以大大降低遗漏术语的几率,提升了术语的识别效率,整个过程自动执行,大大减少了用户的工作量,提升了用户体验。 | ||
搜索关键词: | 基于 特征 模型 文献 术语 识别 方法 系统 | ||
【主权项】:
1.一种基于论元特征模型的文献术语识别方法,其特征在于,包括:对待识别文献的每个句子进行语义角色标注,确定出该句子的论元;对于所述待识别文献的每个句子的每个论元,计算出该论元与预先训练出的论元特征模型中的样本论元之间的相似度;确定出相似度最高的样本论元的类型,作为该论元中的术语的类型;若确定出所述待识别文献的句子中的两个论元,分别与两个相搭配的样本论元之间的相似度都超过预设的相似度阈值,则将该两个样本论元之间的搭配关系,作为所述两个论元各自的术语之间的关系;所述样本论元特征模型是根据如下方法预先训练出的:确定出多个样本文献的词语的属性信息;对每个样本文献的每个句子进行依存句法分析,确定出该句子的短语之间的依存关系;对每个样本文献的每个句子进行语义角色标注,确定出该句子的样本论元;对于每个样本文献的每个句子,根据该句子的样本论元相关谓词和/或介词的属性信息、以及样本论元的短语与谓词和/或介词之间的依存关系,确定出该句子的样本论元的类型和样本论元之间的搭配关系;根据各样本文献的样本论元及其类型和样本论元之间的搭配关系,生成样本论元特征模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610053117.5/,转载请声明来源钻瓜专利网。