[发明专利]构建命名实体标注资源库方法、装置、存储介质和计算机设备在审
申请号: | 201710447680.5 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107329951A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 秦兴德;秦祎晗;刘奕慧;郭玮 | 申请(专利权)人: | 深圳市牛鼎丰科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 谢曲曲 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。本发明使用少量种子库与未标注文本集中的未标注文本构成本轮迭代的资源库进行计算,通过计算未标注文本中每个命名实体的平均效用值,生成下一轮迭代的种子库,再将生成的种子库与其他未标注文本构成下一轮迭代的资源库进行计算出再下一轮的种子库,就这样一直计算直到将未标注文本全部计算,发现新的命名实体,并生成命名实体标注资源库。这种方法计算简单,所得结果的置信度高,适合处理大规模文本。文本数据为一种非结构化数据,通常对非结构化数据进行效果评估都比较困难,而该方法可以实现对文本命名实体进行量化评估。 | ||
搜索关键词: | 构建 命名 实体 标注 资源库 方法 装置 存储 介质 计算机 设备 | ||
【主权项】:
一种构建命名实体标注资源库方法,所述方法包括:获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;计算所述未标注文本中每个命名实体的平均效用值;对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对所述标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市牛鼎丰科技有限公司,未经深圳市牛鼎丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710447680.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种发动机监控操作系统
- 下一篇:一种适老化语义理解方法