[发明专利]融合语境信息的领域术语识别方法有效
申请号: | 201611145330.5 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106776558B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 董广场;陈建辉;钟宁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06K9/62 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 韩剑峰 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 语境 信息 领域 术语 识别 方法 | ||
1.一种融合语境信息的领域术语识别方法,其特征在于,所述方法包括如下步骤:
步骤1:构建术语语境哈希表
运用自然语言处理技术从测试语料库中构建术语数组,抽取术语周围一定数量的词语构建语境数组,进而构建术语语境哈希表,其中,关键词和值分别是术语及其语境数组;
步骤2:构建目标语料库和对照语料库
抽取领域文本中已存在的领域术语的语境信息形成目标语料库,抽取非领域文本中存在的名词短语的语境信息形成对照语料库,最后,对目标语料库和对照语料库进行词形还原;
步骤3:似然比假设
假设H1:假设术语的语境信息在目标语料库和对照语料库中复现的频数相同,即P(t|C1)=P(t|C2)=P=0.5;
假设H2:假设术语的语境信息在目标语料库和对照语料库中复现的频数不同,即P(t|C1)=P1=w1/(w1+w2)≠w2/(w1+w2)=P2=P(t|C2);
首先,计算术语语境与目标语料库和对照语料库中各语境信息的语境相似度,并构建术语语境相似度数组,然后,设置语境相似度阈值,满足语境相似度阈值的项数作为术语语境在相应语料库中的复现频数,计算术语对数似然比,并构建似然比数组,进而构建术语似然比哈希表,其中,关键字和值分别是术语和相应的似然比数组中的最大值,最后,设置对数似然比阈值,得到满足对数似然比阈值的术语似然比哈希表;
步骤4:计算偏移因子
首先,统计术语在目标语料库和对照语料库中的出现的频数,分别记为w1、w2,计算偏移因子,即其中μ0,构建术语偏移因子哈希表,其中,关键字和值分别是术语及其偏移因子值;
步骤5:计算领域属性值
根据步骤4的结果,计算术语领域属性值,即Dp(t)=LLRcf*Bf(t),其中,LLRcf表示术语对数似然比值,构建术语属性哈希表,其中,关键字和值分别是术语及其领域属性值,然后,设置领域属性值阈值,满足领域属性阈值的术语构建领域术语数组。
2.如权利要求1所述的融合语境信息的领域术语识别方法,其特征在于,所述步骤3中语境相似度计算方法过程为:设术语语境数组为A,语料库某一语境数组B,首先,统计数组A和数组B中相同词的个数C,计算两倍的C与A、B所含单词数之和的商值D;然后,计算数组A中的相同词在数组B中的位置顺序构成的自然数序列的逆序数以及A与B所含相同词位置顺序的自然数序列的最大逆序数之间的商值E,进而得到1减E之差F;最后,术语的语境相似度值为D和F线性组合之和且两者系数之和等于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611145330.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置