[发明专利]多策略融合的命名实体的识别方法及装置有效

专利信息
申请号: 201710447439.2 申请日: 2017-06-14
公开(公告)号: CN107330011B 公开(公告)日: 2019-03-26
发明(设计)人: 赵红红;王萌萌;晋耀红;蒋宏飞;杨凯程;董铭慆 申请(专利权)人: 北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F17/27
代理公司: 北京弘权知识产权代理事务所(普通合伙) 11363 代理人: 逯长明;许伟群
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种多策略融合的命名实体的识别方法及装置,利用第一识别模型识别获取的语料中的命名实体,得到第一识别结果,在本申请提供的方法中,所述第一识别模型能够更新和扩充语料库,从而能够识别出语料中新产生的命名实体,进而所述第一识别结果具有更高的准确率,再利用多识别模型融合的方法识别所述语料中的命名实体,得到第二识别结果,融合所述第一识别结果和第二识别结果得到第三识别结果,再利用语义挖掘系统对第三识别结果进行角色分配,并输出具有角色的命名实体,从而实现了在数据海量化、实体类型多样化、新词层出不穷等情况下可靠地识别出命名实体,并对识别出的命名实体进行角色分配。
搜索关键词: 策略 融合 命名 实体 识别 方法 装置
【主权项】:
1.一种多策略融合的命名实体的识别方法,其特征在于,包括:获取语料;利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;融合所述第一识别结果与所述第二识别结果,得到第三识别结果;所述利用第二识别模型识别所述语料中的命名实体,得到第二识别结果的步骤包括:利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数;所述至少两种识别模型包括分词模型和命名实体识别模型,其中,所述分词模型包括nGram分词模型、HMM分词模型、带有新词发现功能的分词模型,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型;所述融合所述第一识别结果与所述第二识别结果,得到第三识别结果的步骤包括:判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体;在得到第三识别结果后还包括:利用语义挖掘系统对所述第三识别结果进行角色分配,生成具有角色的命名实体,其中,所述角色分配为利用语义挖掘系统,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体;所述语义挖掘系统包括正则表达式和文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司,未经北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710447439.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top