[发明专利]一种基于模式的自举中文实体抽取方法有效
申请号: | 201610848425.7 | 申请日: | 2016-09-23 |
公开(公告)号: | CN106445917B | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 姜晓夏;葛唯益;杨岩;贺成龙;宗士强;徐琳;王羽 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于模式的自举中文实体抽取方法,从少量种子实体、实体内部模式、实体外部模式出发,迭代式的从语料中学习出更多的实体和模式。本发明是一种统计与模式相结合的方法,优点在于无需依赖大量的人工标注语料或领域模式库,与现有的模式自举的方法相比,本发明基于对特定领域实体类型模式的观察,将实体内部模式和特征用于对候选模式及无法准确标注的实体进行分数评估,进而提升模式和实体评分的精确程度,适用于特定领域实体抽取和知识库构建。 | ||
搜索关键词: | 一种 基于 模式 中文 实体 抽取 方法 | ||
【主权项】:
1.一种基于模式的自举中文实体抽取方法,其特征在于:对于每种实体类型进行实体识别和规则库构建,包括以下步骤:S1:用户给定如下输入:a.正向种子实体和反向种子实体;b.正向种子实体和反向种子实体各自的内部约束、内部模式及置信程度;c.正向种子实体和反向种子实体各自的外部约束,即正向种子实体和反向种子实体各自出现的上下文信息;d.原始未标注文本;在以上四类输入信息中,a、d不可为空,b、c可以为空;S2:对原始文本进行领域无关的分词、词性标注、句法解析和实体识别,生成基础语料;将正向种子实体加入最终实体库;S3:依据最终实体库中的正向实体,在基础语料中进行标注,并对被标注的正向实体抽取其上下文信息,形成待选外部模式,加入待选外部模式库;S4:对待选外部模式库进行评分:将待选外部模式对原文进行重新标注,依据最终实体库,统计每个待选外部模式抽取出的正向实体、反向实体和无法确定实体类型的实体,对待选外部模式库中的每个待选外部模式进行评分,并按照分数从高到低排序,从待选外部模式库中选择前K个待选外部模式加入最终外部模式库;S5:用新生成的最终外部模式库对原文进行实体抽取,生成待选实体库,对待选实体库中的每个待选实体进行评分,并按照分数从高到低排序,从待选实体库中选择前K个待选实体加入最终实体库;S6:对S5中生成的K个待选实体抽取内部模式,形成待选内部模式库;S7:对待选内部模式库中的每个待选内部模式进行评分,并按照分数从高到低排序,从待选内部模式库中选择前K个待选内部模式加入最终内部模式库;S8:如果迭代次数已经到达上限,或者没有新的实体被发现,则迭代结束,否则返回步骤S3;S9:输出生成的最终实体库、最终外部模式库和最终内部模式库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610848425.7/,转载请声明来源钻瓜专利网。
- 上一篇:专利检索用语义分析方法
- 下一篇:一种中文地址处理方法及系统