[发明专利]在文本识别领域训练神经网络的方法、文本识别方法在审

专利信息
申请号: 202211277003.0 申请日: 2022-10-18
公开(公告)号: CN115905519A 公开(公告)日: 2023-04-04
发明(设计)人: 徐丞申;刘荣;黄萧;喻杰;李晓华;张金伟 申请(专利权)人: 天津车之家软件有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06N3/045;G06N3/044;G06N3/0464;G06N3/08
代理公司: 北京思睿峰知识产权代理有限公司 11396 代理人: 谢建云;赵爱军
地址: 300467 天津市滨海新区生态城动漫中路126号*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 识别 领域 训练 神经网络 方法
【说明书】:

发明公开了一种在文本识别领域训练神经网络的方法、文本识别方法,涉及文本识别的技术领域,可以解决目前文本识别不能识别意图顺序的技术问题。在文本识别领域训练神经网络的方法包括:对训练文本执行分词操作,以将其转换为词向量组成的矩阵;重复执行以下步骤,直至连接时序分类方法的损失函数小于预定值,以得到训练好的神经网络:将词向量组成的矩阵输入神经网络,通过神经网络计算得到特征向量;使用连接时序分类方法接收特征向量,并计算连接时序分类方法的损失函数;判断损失函数是否小于预定值;在损失函数不小于预定值的情况下,使用损失函数更新神经网络的参数的权值。根据本发明技术方案,可以识别文本意图顺序。

技术领域

本发明涉及文本识别技术领域,尤其涉及一种在文本识别领域训练神经网络的方法、文本识别方法。

背景技术

随着深度学习的发展,文本分类的精度越来越高,比如常见的卷积神经网络模型、循环神经网络模型或者二者的组合模型,联合softmax损失函数,可以在文本分类任务上达到很高的精度。然而,在某些场合下,这种单分类的模型已经远远不能满足要求。比如,以自然语言处理领域中的意图识别为例。其中,一个文本可能不止一个意图,在需要将其中的意图全部识别出来时,需要用到多分类模型,即一个文本需要有多个分类标签。

针对上述需求,通过使用上述卷积神经网络模型、循环神经网络模型或者二者的组合模型,并改变其损失函数——将softmax函数改为多个sigmoid函数即可。由于sigmoid函数的取值范围是(0,1),因此可以为每个类别设定一个临界值。该临界值可以拟合得出,也可简单设为0.5,类别大于该临界值则认为文本属于此类别。如果有多个类别大于临界值,则认为文本有多个分类。

然而,采用sigmoid作为损失函数,不能解决分类的顺序问题。以意图识别为例,假设共有10个分类(即10个意图),并假设某文本有3个意图,意图编号从前到后依次是6、8、3。采用sigmod损失函数,仅能知道该文本有3个意图:3、6、8,而无法知道意图的顺序。

发明内容

为此,本发明提供了一种在文本识别领域训练神经网络的方法和装置、文本识别方法和装置、计算设备和可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的第一方面,提供了一种在文本识别领域训练神经网络的方法,包括:对训练文本执行分词操作,以将训练文本转换为词向量组成的矩阵;重复执行以下步骤,直至连接时序分类方法的损失函数小于预定值,以得到训练好的神经网络:将词向量组成的矩阵输入神经网络,通过神经网络计算得到特征向量;使用连接时序分类方法接收所述特征向量,并计算连接时序分类方法的损失函数;判断所述损失函数是否小于预定值;在损失函数不小于预定值的情况下,使用所述损失函数更新所述神经网络的参数的权值。

可选地,在根据本发明的在文本识别领域训练神经网络的方法中,所述神经网络包括卷积神经网络和循环神经网络,且所述方法还包括:将所述词向量组成的矩阵扩展为三重张量,以输入至卷积神经网络中。

可选地,在根据本发明的在文本识别领域训练神经网络的方法中,“对训练文本执行分词操作”包括:将组成一个词的两个以上的字,识别为一个词的组成部分。

根据本发明的第二方面,提供了一种文本识别方法,包括:接收文本输入;对文本输入执行分词操作,以将文本输入转换为词向量组成的矩阵;将词向量组成的矩阵输入到如权利要求1所述的在文本识别领域训练神经网络的方法训练出来的神经网络,得到文本输入的意图。

可选地,根据本发明的文本识别方法还包括:将所述意图输出至智能机器,以便于与智能机器展开对话。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津车之家软件有限公司,未经天津车之家软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211277003.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top