[发明专利]一种中文命名实体提取方法及其系统在审

专利信息
申请号: 201910815302.7 申请日: 2019-08-30
公开(公告)号: CN110516256A 公开(公告)日: 2019-11-29
发明(设计)人: 张亮 申请(专利权)人: 的卢技术有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06N3/04;G06N3/08
代理公司: 32272 南京禹为知识产权代理事务所(特殊普通合伙) 代理人: 王晓东<国际申请>=<国际公布>=<进入
地址: 211100 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 泛化性能 命名实体 匹配 字典 表征能力 采集数据 精度指标 模型基础 模型下载 实体提取 数据模块 算法模块 训练测试 自动识别 数据集 中文 算法 收敛 制作 部署 维护 学习
【权利要求书】:

1.一种中文命名实体提取方法,其特征在于:包括以下步骤,

数据模块(100)采集数据制作数据集并形成训练测试数据;

提取模型(200)下载BERT模型(201)及预训练代码;

所述BERT模型基础上增加BILSTM+CRF算法模块(202);

训练所述提取模型(200),当所述提取模型(200)收敛达到精度指标时,将它部署进行实体提取。

2.如权利要求1所述的中文命名实体提取方法,其特征在于:所述数据模块(100)还包括以下步骤,

采用调查问卷的形式采集人们常用于请假与出差的语句;

收集公开的数据集来提取地点和人名;

对采集的数据集进行打标签。

3.如权利要求1或2所述的中文命名实体提取方法,其特征在于:所述对采集的数据集进行打标包括以下步骤,

将不需要提取的数据标签为0;

地点标签的后缀为LOC和人名为PER;

出差标签的后缀为CHU和请假为JIA;

每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。

4.如权利要求3所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)通过下载谷歌的BERT预训练模型获得,预训练的中文BERT模型及代码来自于Google Research的BERT,能够实现词向量嵌入。

5.如权利要求4所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)作为词向量模型,增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,把下游具体NLP任务的逐渐移到预训练产生词向量上,包括预训练产生词向量和对词向量操作两个过程。

6.如权利要求4或5所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)包括以下步骤,

双向encoding,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替;

使用Transformer做encoder实现上下文相关,并通过self-attention减小mask标记权重;

提升至句子级别,学习句子/句对关系表示,句子级负采样。

7.如权利要求6所述的中文命名实体提取方法,其特征在于:所述下游具体NLP任务主要分为以下,

序列标注,分词、实体识别以及语义标注;

分类任务,文本分类和情感计算;

句子关系判断,entailment、QA和自然语言推理;

生成式任务,机器翻译和文本摘要。

8.如权利要求7所述的中文命名实体提取方法,其特征在于:所述BILSTM+CRF算法模块(202)包括以下定义步骤,

定义输入X={x1,x2,...,xn},得到预测序列y=(y1,y2,...,yn);

定义预测序列得分:

其中Pi,yi为第i个位置softmax输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率。

9.如权利要求8所述的中文命名实体提取方法,其特征在于:所述BILSTM+CRF算法模块(202)包括以下训练步骤,

对于每个训练样本X,求出所有可能的标注序列y的得分S(X,y),对所有得分进行归一化:

利用损失函数对真实标记序列y的概率取log;

最大化真实标记序列的概率,即训练了转移概率矩阵A和所述BiLSTM中的参数。

10.一种中文命名实体提取系统,其特征在于:包括数据模块(100)、提取模型(200)和训练模块(300);

所述数据模块(100)用于采集数据并制作数据集和形成训练测试数据;

所述提取模型(200)用于部署进行所述中文命名实体提取;

所述训练模块(300)用于所述提取模型(200)的数据训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于的卢技术有限公司,未经的卢技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910815302.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top