[发明专利]一种语句中命名实体的识别方法及装置在审

专利信息
申请号: 201910354890.9 申请日: 2019-04-29
公开(公告)号: CN111859964A 公开(公告)日: 2020-10-30
发明(设计)人: 曹秀亭 申请(专利权)人: 普天信息技术有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王庆龙;苗晓静
地址: 100080 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语句 命名 实体 识别 方法 装置
【说明书】:

发明的实施例公开了一种语句中命名实体的识别方法及装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。

技术领域

本发明涉及机器学习和语句处理技术领域,尤其是涉及一种语句中命名实体的识别方法及装置。

背景技术

命名实体识别(NER)是自然语言处理中一些复杂任务(例如信息抽取、问答系统、机器翻译)的基础工作,指从一段自然语言文本中找出命名性指称项,并标注其位置和类型。现有技术是通过基于传统机器学习的方法,利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。常用的应用到NER任务的模型主要包括生成式模型隐马尔科夫(HMM)、判别式模型条件随机场(CRF)等。目前常用的方法是通过人工定义一些二值特征函数,挖掘命名实体内部以及上下文的构成特点。对于句子中的给定位置,提取的特征是一个位置,即上下文位置。并且不同的特征模板之间可以进行组合来形成一个新的特征模板。然后,对句子进行各个位置提取特征时,将这些特征输入CRF,它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,使用维特比算法进行解码。

然而,传统的方法主要缺点是训练时间复杂性非常高,收敛速度慢、训练时间长,有时甚至导致训练代价难以承受,虽然考虑到了词语在字符层面的形态特征,但是拼接的方法简单粗暴,难以根据训练数据灵活调整字符特征和词语特征之间的权重;另外,没有考虑到具体的训练数据分布对于字符向量权重的影响,很难学习到字符间的分布规律。

在实际应用过程中,发明人发现现有的识别语句中的命名实体的方法没有考虑各单词相对于整个语句其它单词为命名实体的权重,这种给每一单词赋予相同权重的方法使得模型的训练过程较为复杂,耗时较长。

发明内容

本发明实施例提供一种语句中命名实体的识别方法及装置,用以解决现有技术中识别语句中的命名实体的方法没有考虑各单词相对于整个语句其它单词为命名实体的权重,这种给每一单词赋予相同权重的方法使得模型的训练过程较为复杂,耗时较长的问题。

针对以上技术问题,本发明的实施例提供了一种语句中命名实体的识别方法,包括:

对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;

将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;

根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;

其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。

本发明的实施例提供了一种语句中命名实体的识别装置,包括:

获取模块,用于对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;

识别模块,用于将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910354890.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top