[发明专利]融合语境信息的领域术语识别方法有效

申请号：	201611145330.5	申请日：	2016-12-14
公开（公告）号：	CN106776558B	公开（公告）日：	2020-06-19
发明（设计）人：	董广场;陈建辉;钟宁	申请（专利权）人：	北京工业大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/247;G06K9/62
代理公司：	北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617	代理人：	韩剑峰
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融合语境信息领域术语识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合语境信息的领域术语识别方法，其特征在于，所述方法包括如下步骤：

步骤1：构建术语语境哈希表

运用自然语言处理技术从测试语料库中构建术语数组，抽取术语周围一定数量的词语构建语境数组，进而构建术语语境哈希表，其中，关键词和值分别是术语及其语境数组；

步骤2：构建目标语料库和对照语料库

抽取领域文本中已存在的领域术语的语境信息形成目标语料库，抽取非领域文本中存在的名词短语的语境信息形成对照语料库，最后，对目标语料库和对照语料库进行词形还原；

步骤3：似然比假设

假设H₁：假设术语的语境信息在目标语料库和对照语料库中复现的频数相同，即P(t|C₁)＝P(t|C₂)＝P＝0.5；

假设H₂：假设术语的语境信息在目标语料库和对照语料库中复现的频数不同，即P(t|C₁)＝P₁＝w₁/(w₁+w₂)≠w₂/(w₁+w₂)＝P₂＝P(t|C₂)；

首先，计算术语语境与目标语料库和对照语料库中各语境信息的语境相似度，并构建术语语境相似度数组，然后，设置语境相似度阈值，满足语境相似度阈值的项数作为术语语境在相应语料库中的复现频数，计算术语对数似然比，并构建似然比数组，进而构建术语似然比哈希表，其中，关键字和值分别是术语和相应的似然比数组中的最大值，最后，设置对数似然比阈值，得到满足对数似然比阈值的术语似然比哈希表；

步骤4：计算偏移因子

首先，统计术语在目标语料库和对照语料库中的出现的频数，分别记为w₁、w₂，计算偏移因子，即其中μ0，构建术语偏移因子哈希表，其中，关键字和值分别是术语及其偏移因子值；

步骤5：计算领域属性值

根据步骤4的结果，计算术语领域属性值，即Dp(t)＝LLR_cf*Bf(t)，其中，LLR_cf表示术语对数似然比值，构建术语属性哈希表，其中，关键字和值分别是术语及其领域属性值，然后，设置领域属性值阈值，满足领域属性阈值的术语构建领域术语数组。

2.如权利要求1所述的融合语境信息的领域术语识别方法,其特征在于,所述步骤3中语境相似度计算方法过程为：设术语语境数组为A，语料库某一语境数组B,首先，统计数组A和数组B中相同词的个数C，计算两倍的C与A、B所含单词数之和的商值D；然后，计算数组A中的相同词在数组B中的位置顺序构成的自然数序列的逆序数以及A与B所含相同词位置顺序的自然数序列的最大逆序数之间的商值E，进而得到1减E之差F；最后，术语的语境相似度值为D和F线性组合之和且两者系数之和等于1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611145330.5/1.html，转载请声明来源钻瓜专利网。

上一篇：情感机器人的情感状态记忆识别方法及装置
下一篇：文本语义相似度计算的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]融合语境信息的领域术语识别方法有效

专利文献下载