[发明专利]命名实体的识别方法及装置有效

专利信息
申请号: 201811332914.2 申请日: 2018-11-09
公开(公告)号: CN109522553B 公开(公告)日: 2020-02-11
发明(设计)人: 聂镭;徐泓洋;郑权;张峰;聂颖 申请(专利权)人: 龙马智芯(珠海横琴)科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 11240 北京康信知识产权代理有限责任公司 代理人: 赵囡囡;董文倩
地址: 519000 广东省珠*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 命名实体 文字图像 向量 拼接 特征向量 字体 卷积神经网络 题目 向量获取 信息抽取 信息识别 信息提取 不可用 传统的 中文字 构建
【说明书】:

发明公开了一种命名实体的识别方法及装置。其中,该方法包括:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。本发明解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。

技术领域

本发明涉及自然语言处理技术领域,具体而言,涉及一种命名实体的识别方法及装置。

背景技术

传统的国家认证的证书,包括CET-4、CET-6、毕业证书,学位证书等都有着固定的模式,固定的位置,特定的内容。所以在证书识别中,只需要提取出相关位置上的文字就可以直接匹配上对应的信息,也就是识别即获取。

随着国家对证书形式和内容的放开,高校和科研机构纷纷开始自主设计具有各自特色的证书,特别是毕业证和学位证。不同的学校有不同的形式和内容,甚至一个学校不同届的证书内容和形式也不相同。这就为传统的证书识别带来了难题:即使是提取到了证书中的文字,但是仍然无法匹配信息,也就是只识别但为不可用的信息。

针对上述相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种命名实体的识别方法及装置,以至少解决相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。

根据本发明实施例的一个方面,提供了一种命名实体的识别方法,包括:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集。

可选地,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。

可选地,将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;获取所述双向长短时记忆网络模型Bi-LSTM的输出;根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。

可选地,根据所述特征向量得到命名实体集包括:将所述特征向量作为条件随机场模型CRF的输入;获取所述条件随机场模型CRF的输出;根据所述条件随机场模型CRF的输出得到所述命名实体集。

可选地,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目。

可选地,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811332914.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top