[发明专利]构建命名实体标注资源库方法、装置、存储介质和计算机设备在审
申请号: | 201710447680.5 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107329951A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 秦兴德;秦祎晗;刘奕慧;郭玮 | 申请(专利权)人: | 深圳市牛鼎丰科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 谢曲曲 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 命名 实体 标注 资源库 方法 装置 存储 介质 计算机 设备 | ||
技术领域
本发明涉及信息处理技术领域,特别是涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
背景技术
命名实体(named entity)就是指人名、机构名、地名以及其他所有以名称为标识的实体,广义的命名实体还包括数字、日期、货币、地址等。命名实体识别(Named Entity Recognition,NER)是自然语言处理的基础技术之一,对于提高许多自然语言处理应用系统的性能都有重要作用。目前NER主要使用统计模型作为处理技术,比如隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场模型(Conditional Random Field,CRF)等统计模型,这类统计模型都需要大量的标注资源库作为训练集,一般常采用人民日报语料资源库等人工标注的资源库作为训练集。这些人工标注的资源库中的资源是非常有限的,不足以适应大规模应用场景比如机器翻译,且随着社会的发展,不断地有新的命名实体诞生,比如机构名、电影名称、产品名称、图书名称等,所以采用人工标注的资源库远远无法满足命名实体识别的需求。因此,建立并维护命名实体标注资源库是众多自然语言处理领域应用(例如搜索系统,机器翻译系统等)的核心。
发明内容
基于此,有必要针对上述技术问题,提供一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
一种构建命名实体标注资源库方法,所述方法包括:
获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
计算所述未标注文本中每个命名实体的平均效用值;
对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
对所述标注资源库中的候选词进行评分;
获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
在其中一个实施例中,所述计算所述未标注文本中每个命名实体的平均效用值,包括:
对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;
采用条件随机场CRF模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;
对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;
获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。
在其中一个实施例中,所述获取已标注文本集作为本轮迭代的种子库之前,还包括:
采集文本信息;
从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。
在其中一个实施例中,所述效用评估函数为
其中为x的最优标注序列,为x的次优标注序列,θ为模型参数,0≤λ≤1为调节因子,为x的最优标注序列的条件概率,为x的次优标注序列的条件概率,x是一个文本标注序列样例。
在其中一个实施例中,所述平均效用计算公式为
其中Xt是含有实体候选词t的样例集,|Xt|是含有实体候选词t样例的个数,是实体候选词t在Xt样例集上的平均效用值,xt是含有实体候选词t的一个文本标注序列样例。
一种构建命名实体标注资源库装置,所述装置包括:
种子库获取模块,用于获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
资源库获取模块,用于获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市牛鼎丰科技有限公司,未经深圳市牛鼎丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447680.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发动机监控操作系统
- 下一篇:一种适老化语义理解方法