[发明专利]构建命名实体标注资源库方法、装置、存储介质和计算机设备在审
申请号: | 201710447680.5 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107329951A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 秦兴德;秦祎晗;刘奕慧;郭玮 | 申请(专利权)人: | 深圳市牛鼎丰科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 谢曲曲 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 命名 实体 标注 资源库 方法 装置 存储 介质 计算机 设备 | ||
1.一种构建命名实体标注资源库方法,所述方法包括:
获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
计算所述未标注文本中每个命名实体的平均效用值;
对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
对所述标注资源库中的候选词进行评分;
获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
2.根据权利要求1所述的方法,其特征在于,所述计算所述未标注文本中每个命名实体的平均效用值,包括:
对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;
采用条件随机场CRF模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;
对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;
获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。
3.根据权利要求1所述的方法,其特征在于,所述获取已标注文本集作为本轮迭代的种子库之前,还包括:
采集文本信息;
从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。
4.根据权利要求2所述的方法,其特征在于,所述效用评估函数为:
其中为x的最优标注序列,为x的次优标注序列,θ为模型参数,0≤λ≤1为调节因子,为x的最优标注序列的条件概率,为x的次优标注序列的条件概率,x是一个文本标注序列样例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市牛鼎丰科技有限公司,未经深圳市牛鼎丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447680.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发动机监控操作系统
- 下一篇:一种适老化语义理解方法