[发明专利]一种中文命名实体提取方法及其系统在审
| 申请号: | 201910815302.7 | 申请日: | 2019-08-30 |
| 公开(公告)号: | CN110516256A | 公开(公告)日: | 2019-11-29 |
| 发明(设计)人: | 张亮 | 申请(专利权)人: | 的卢技术有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 32272 南京禹为知识产权代理事务所(特殊普通合伙) | 代理人: | 王晓东<国际申请>=<国际公布>=<进入 |
| 地址: | 211100 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 泛化性能 命名实体 匹配 字典 表征能力 采集数据 精度指标 模型基础 模型下载 实体提取 数据模块 算法模块 训练测试 自动识别 数据集 中文 算法 收敛 制作 部署 维护 学习 | ||
1.一种中文命名实体提取方法,其特征在于:包括以下步骤,
数据模块(100)采集数据制作数据集并形成训练测试数据;
提取模型(200)下载BERT模型(201)及预训练代码;
所述BERT模型基础上增加BILSTM+CRF算法模块(202);
训练所述提取模型(200),当所述提取模型(200)收敛达到精度指标时,将它部署进行实体提取。
2.如权利要求1所述的中文命名实体提取方法,其特征在于:所述数据模块(100)还包括以下步骤,
采用调查问卷的形式采集人们常用于请假与出差的语句;
收集公开的数据集来提取地点和人名;
对采集的数据集进行打标签。
3.如权利要求1或2所述的中文命名实体提取方法,其特征在于:所述对采集的数据集进行打标包括以下步骤,
将不需要提取的数据标签为0;
地点标签的后缀为LOC和人名为PER;
出差标签的后缀为CHU和请假为JIA;
每种实体的开始的字的标签前缀是B,跟在后面的前缀为I。
4.如权利要求3所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)通过下载谷歌的BERT预训练模型获得,预训练的中文BERT模型及代码来自于Google Research的BERT,能够实现词向量嵌入。
5.如权利要求4所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)作为词向量模型,增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,把下游具体NLP任务的逐渐移到预训练产生词向量上,包括预训练产生词向量和对词向量操作两个过程。
6.如权利要求4或5所述的中文命名实体提取方法,其特征在于:所述BERT模型(201)包括以下步骤,
双向encoding,类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替;
使用Transformer做encoder实现上下文相关,并通过self-attention减小mask标记权重;
提升至句子级别,学习句子/句对关系表示,句子级负采样。
7.如权利要求6所述的中文命名实体提取方法,其特征在于:所述下游具体NLP任务主要分为以下,
序列标注,分词、实体识别以及语义标注;
分类任务,文本分类和情感计算;
句子关系判断,entailment、QA和自然语言推理;
生成式任务,机器翻译和文本摘要。
8.如权利要求7所述的中文命名实体提取方法,其特征在于:所述BILSTM+CRF算法模块(202)包括以下定义步骤,
定义输入X={x1,x2,...,xn},得到预测序列y=(y1,y2,...,yn);
定义预测序列得分:
其中Pi,yi为第i个位置softmax输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率。
9.如权利要求8所述的中文命名实体提取方法,其特征在于:所述BILSTM+CRF算法模块(202)包括以下训练步骤,
对于每个训练样本X,求出所有可能的标注序列y的得分S(X,y),对所有得分进行归一化:
利用损失函数对真实标记序列y的概率取log;
最大化真实标记序列的概率,即训练了转移概率矩阵A和所述BiLSTM中的参数。
10.一种中文命名实体提取系统,其特征在于:包括数据模块(100)、提取模型(200)和训练模块(300);
所述数据模块(100)用于采集数据并制作数据集和形成训练测试数据;
所述提取模型(200)用于部署进行所述中文命名实体提取;
所述训练模块(300)用于所述提取模型(200)的数据训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于的卢技术有限公司,未经的卢技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815302.7/1.html,转载请声明来源钻瓜专利网。





