[发明专利]融合语境信息的领域术语识别方法有效
申请号: | 201611145330.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106776558B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 董广场;陈建辉;钟宁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06K9/62 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 韩剑峰 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 为了解决本体学习中在特定领域术语抽取效率偏低的问题,本发明提出了一种融合语境信息的领域术语识别方法,整合统计学和语言学方法,借鉴传统领域相关性与领域一致性思想,再结合对数似然比,从候选术语语境信息的复现次数角度刻画候选术语在不同领域的分布情况,然后计算候选术语的领域属性值,最后根据每个候选术语的领域属性值抽取领域术语。本发明所述的融合语境信息的领域术语识别方法可获得非常好的术语抽取准确率,其不仅可以应用在诸如抑郁症药物等领域的术语抽取中,还能够在概念抽取方法中作为候选概念产生工具使用。 | ||
搜索关键词: | 融合 语境 信息 领域 术语 识别 方法 | ||
【主权项】:
一种融合语境信息的领域术语识别方法,其特征在于,所述方法包括如下步骤:步骤1:构建术语语境哈希表运用自然语言处理技术从测试语料库中构建术语数组,抽取术语周围一定数量的词语构建语境数组,进而构建术语语境哈希表,其中,关键词和值分别是术语及其语境数组;步骤2:构建目标语料库和对照语料库抽取领域文本中已存在的领域术语的语境信息形成目标语料库,抽取非领域文本中存在的名词短语的语境信息形成对照语料库,最后,对目标语料库和对照语料库进行词形还原;步骤3:似然比假设假设H1:假设术语的语境信息在目标语料库和对照语料库中复现的频数相同;假设H2:假设术语的语境信息在目标语料库和对照语料库中复现的频数不同;首先,计算术语语境与目标语料库和对照语料库中各语境信息的语境相似度,并构建术语语境相似度数组,然后,设置语境相似度阈值,满足阈值的项数作为术语语境在相应语料库中的复现频数,计算术语对数似然比,并构建似然比数组,进而构建术语似然比哈希表,其中,关键字和值分别是术语和相应的似然比数组中的最大值,最后,设置对数似然比阈值,得到满足阈值的术语似然比哈希表;步骤4:计算偏移因子首先,统计术语在目标语料库和对照预料库中的出现的频数,分别记为w1、w2,计算偏移因子,即其中,μ>0,构建术语偏移因子哈希表,其中,关键字和值分别是术语及其偏移因子值;步骤5:计算领域属性值根据步骤4的结果,计算术语领域属性值,即Dp(t)=LLRcf*Bf(t),其中,LLRcf表示术语对数似然比值,构建术语属性哈希表,其中,关键字和值分别是术语及其领域属性值,然后,设置属性值阈值,满足阈值的术语构建领域术语数组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611145330.5/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置