[发明专利]融合语境信息的领域术语识别方法有效

专利信息
申请号: 201611145330.5 申请日: 2016-12-14
公开(公告)号: CN106776558B 公开(公告)日: 2020-06-19
发明(设计)人: 董广场;陈建辉;钟宁 申请(专利权)人: 北京工业大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/247;G06K9/62
代理公司: 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 代理人: 韩剑峰
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 语境 信息 领域 术语 识别 方法
【权利要求书】:

1.一种融合语境信息的领域术语识别方法,其特征在于,所述方法包括如下步骤:

步骤1:构建术语语境哈希表

运用自然语言处理技术从测试语料库中构建术语数组,抽取术语周围一定数量的词语构建语境数组,进而构建术语语境哈希表,其中,关键词和值分别是术语及其语境数组;

步骤2:构建目标语料库和对照语料库

抽取领域文本中已存在的领域术语的语境信息形成目标语料库,抽取非领域文本中存在的名词短语的语境信息形成对照语料库,最后,对目标语料库和对照语料库进行词形还原;

步骤3:似然比假设

假设H1:假设术语的语境信息在目标语料库和对照语料库中复现的频数相同,即P(t|C1)=P(t|C2)=P=0.5;

假设H2:假设术语的语境信息在目标语料库和对照语料库中复现的频数不同,即P(t|C1)=P1=w1/(w1+w2)≠w2/(w1+w2)=P2=P(t|C2);

首先,计算术语语境与目标语料库和对照语料库中各语境信息的语境相似度,并构建术语语境相似度数组,然后,设置语境相似度阈值,满足语境相似度阈值的项数作为术语语境在相应语料库中的复现频数,计算术语对数似然比,并构建似然比数组,进而构建术语似然比哈希表,其中,关键字和值分别是术语和相应的似然比数组中的最大值,最后,设置对数似然比阈值,得到满足对数似然比阈值的术语似然比哈希表;

步骤4:计算偏移因子

首先,统计术语在目标语料库和对照语料库中的出现的频数,分别记为w1、w2,计算偏移因子,即其中μ0,构建术语偏移因子哈希表,其中,关键字和值分别是术语及其偏移因子值;

步骤5:计算领域属性值

根据步骤4的结果,计算术语领域属性值,即Dp(t)=LLRcf*Bf(t),其中,LLRcf表示术语对数似然比值,构建术语属性哈希表,其中,关键字和值分别是术语及其领域属性值,然后,设置领域属性值阈值,满足领域属性阈值的术语构建领域术语数组。

2.如权利要求1所述的融合语境信息的领域术语识别方法,其特征在于,所述步骤3中语境相似度计算方法过程为:设术语语境数组为A,语料库某一语境数组B,首先,统计数组A和数组B中相同词的个数C,计算两倍的C与A、B所含单词数之和的商值D;然后,计算数组A中的相同词在数组B中的位置顺序构成的自然数序列的逆序数以及A与B所含相同词位置顺序的自然数序列的最大逆序数之间的商值E,进而得到1减E之差F;最后,术语的语境相似度值为D和F线性组合之和且两者系数之和等于1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611145330.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top