[发明专利]融合语境信息的领域术语识别方法有效
申请号: | 201611145330.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106776558B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 董广场;陈建辉;钟宁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06K9/62 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 韩剑峰 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 语境 信息 领域 术语 识别 方法 | ||
为了解决本体学习中在特定领域术语抽取效率偏低的问题,本发明提出了一种融合语境信息的领域术语识别方法,整合统计学和语言学方法,借鉴传统领域相关性与领域一致性思想,再结合对数似然比,从候选术语语境信息的复现次数角度刻画候选术语在不同领域的分布情况,然后计算候选术语的领域属性值,最后根据每个候选术语的领域属性值抽取领域术语。本发明所述的融合语境信息的领域术语识别方法可获得非常好的术语抽取准确率,其不仅可以应用在诸如抑郁症药物等领域的术语抽取中,还能够在概念抽取方法中作为候选概念产生工具使用。
技术领域
本发明涉及本体学习领域术语抽取,尤其是涉及抑郁症药物领域术语抽取。
技术背景
本体在解决知识表示、知识组织以及知识共享等问题方面表现出了优异的性能,因此,在信息技术、人工智能、知识工程、知识管理、信息检索等领域被广泛应用,特别是语义Web的产生,使得本体为Web信息共享提出了新的解决方案,为其发展带来了广阔前景。本体作为概念模型的明确规范说明,是概念间的关系模型。而术语作为概念的一种描述,可以用于表示概念的实例,故本体术语抽取成为本体构建的首要工作,对本体学习以及基于本体的应用技术的发展具有重要意义。然而,一般的本体术语抽取方法只适用于通用、宽泛领域,在解决特定、细粒度领域的术语抽取问题时准确率及召回率均很低。
发明内容
为了解决本体学习中在特定领域术语抽取效率偏低的问题,本发明提出了一种融合语境信息的领域术语识别方法,整合统计学和语言学方法,借鉴传统领域相关性与领域一致性思想,再结合对数似然比,从候选术语语境信息的复现次数角度刻画候选术语在不同领域的分布情况,然后计算候选术语的领域属性值,最后根据每个候选术语的领域属性值抽取领域术语。本发明所述的融合语境信息的领域术语识别方法可获得非常好的术语抽取准确率,其不仅可以应用在诸如抑郁症药物等领域的术语抽取中,还能够在概念抽取方法中作为候选概念产生工具使用。
为解决所述技术问题,本发明采用的技术方案具体如下:
(1)候选术语及其语境信息产生,构建术语语境哈希表
运用自然语言处理技术从测试语料库中构建术语数组,抽取术语周围一定数量的词语构建语境数组,进而构建术语语境哈希表,其中,关键词和值分别是术语及其语境数组;
(2)构造目标语料库和对照语料库
抽取领域文本中已存在的领域术语的语境信息形成目标语料库,抽取非领域文本中存在的名词短语的语境信息形成对照语料库,最后,对目标语料库和对照语料库进行词形还原;
(3)候选术语识别
a)计算术语语境与目标语料库和对照语料库中各语境信息的语境相似度,并构建术语语境相似度数组,然后,设置语境相似度阈值,满足阈值的项数作为术语语境在相应语料库中的复现频数,计算术语对数似然比,并构建似然比数组,进而构建术语似然比哈希表,其中,关键字和值分别是术语和相应的似然比数组中的最大值,最后,设置对数似然比阈值,得到满足阈值的术语似然比哈希表;
b)统计术语在目标语料库和对照预料库中的出现的频数,计算候选术语的偏移因子;
c)根据b)的结果得到领域属性值,然后,设置属性值阈值,将满足阈值的术语抽取出来,构建领域术语数组。
进一步的,所述步骤a)中语境相似度计算方法具体过程为:设术语语境信息数组为A,语料库某一语境数组B,首先,统计数组A和数组B中相同词的个数C,计算两倍的C与A、B所含单词数之和的商值D;然后,计算数组A中的相同词在数组B中的位置顺序构成的自然数序列的逆序数以及A与B所含相同词位置顺序的自然数序列的最大逆序数之间的商值E,进而得到1与E之差F;最后,术语的语境相似度值为D和F线性组合之和且两者系数之和等于1。
附图说明
图1是本发明所述的融合语境信息的领域术语识别方法流程图
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611145330.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置