[发明专利]一种中文命名实体提取方法及其系统在审

专利信息
申请号: 201910815302.7 申请日: 2019-08-30
公开(公告)号: CN110516256A 公开(公告)日: 2019-11-29
发明(设计)人: 张亮 申请(专利权)人: 的卢技术有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06N3/04;G06N3/08
代理公司: 32272 南京禹为知识产权代理事务所(特殊普通合伙) 代理人: 王晓东<国际申请>=<国际公布>=<进入
地址: 211100 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 泛化性能 命名实体 匹配 字典 表征能力 采集数据 精度指标 模型基础 模型下载 实体提取 数据模块 算法模块 训练测试 自动识别 数据集 中文 算法 收敛 制作 部署 维护 学习
【说明书】:

发明公开了一种中文命名实体提取方法及其系统,包括以下步骤,数据模块采集数据制作数据集并形成训练测试数据;提取模型下载BERT模型及预训练代码;所述BERT模型基础上增加BILSTM+CRF算法模块;训练所述提取模型,当所述提取模型收敛达到精度指标时,将它部署进行实体提取。本发明的有益效果:基于BERT的中文命名实体提取技术,精度较之前的方法更高,同时泛化性能更好;自动识别实体不需要建立字典匹配、不需要总是增加文本来维护匹配的字典.较于其他深度学习方法,BERT有更强的表征能力,因此整个算法会具有更好的泛化性能。

技术领域

本发明涉及自然语言处理的技术领域,尤其涉及一种聊天系统中的中文命名实体提取方法及中文命名实体提取系统。

背景技术

近年来随着互联网和信息产业的高速发展,大量的非结构化文本数据不断增长,面对海量的文本数据,如何高效地进行信息管理和数据挖掘成为了研究热点之一,而信息抽取技术也逐渐受到了人们的关注。目前在一些公司的对话系统中,往往需要嵌入NLP的技术来让用户工作更加便捷,例如当聊天中出现我今天需要请假时,系统背后的NLP算法会提取请假两个字,然后系统自动跳入请假页面进入请假填写流程.。因此一个系统的实体识别技术很重要。

但是传统基于规则的命名实体提取技术,需要构建完备的词库,耗费巨大的人力。统计方法中,例如条件随机场、隐马尔可夫模型受限于特征的选择和语料。深度学习用于实体提取的方法如lstm结合crf的方法,虽然较上两种方法改进很多,但是泛化性能不够,对一些语料库中不存在的实体也会出现漏识别问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题,提出了本发明。

因此,本发明解决的一个技术问题是:提出一种中文命名实体提取方法,不需要总是增加文本来维护匹配的字典,具有更好的泛化性能。

为解决上述技术问题,本发明提供如下技术方案:一种中文命名实体提取方法,包括以下步骤,数据模块采集数据制作数据集并形成训练测试数据;提取模型下载BERT模型及预训练代码;所述BERT模型基础上增加BILSTM+CRF算法模块;训练所述提取模型,当所述提取模型收敛达到精度指标时,将它部署进行实体提取。

作为本发明所述的中文命名实体提取方法的一种优选方案,其中:所述数据模块还包括以下步骤,采用调查问卷的形式采集人们常用于请假与出差的语句;收集公开的数据集来提取地点和人名;对采集的数据集进行打标签。

作为本发明所述的中文命名实体提取方法的一种优选方案,其中:所述对采集的数据集进行打标包括以下步骤,将不需要提取的数据标签为0;地点标签的后缀为LOC和人名为PER;出差标签的后缀为CHU和请假为JIA;每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。

作为本发明所述的中文命名实体提取方法的一种优选方案,其中:所述BERT模型通过下载谷歌的BERT预训练模型获得,预训练的中文BERT模型及代码来自于GoogleResearch的BERT,能够实现词向量嵌入。

作为本发明所述的中文命名实体提取方法的一种优选方案,其中:所述BERT模型作为词向量模型,增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,把下游具体NLP任务的逐渐移到预训练产生词向量上,包括预训练产生词向量和对词向量操作两个过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于的卢技术有限公司,未经的卢技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910815302.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top