[发明专利]语言信息的处理方法、装置、存储介质及电子设备在审
申请号: | 201911315545.0 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111062217A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 陶超;沙韬伟;李旭泽 | 申请(专利权)人: | 江苏满运软件科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 信息 处理 方法 装置 存储 介质 电子设备 | ||
本申请实施例公开了一种语言信息的处理方法、装置、存储介质及电子设备。该方法包括:获取待处理的语言信息文本内容,并对文本内容进行预处理,得到带有词性标注的汉字内容;将所述带有词性标注的汉字内容输入至BERT模型,得到汉字内容的编码向量;将所述编码向量通过全连接层映射到词性集合中,得到汉字内容的各汉字的目标词性以及目标词性概率,作为所述汉字内容的状态特征;通过CRF层来计算标签之间的转移特征概率,根据所述状态特征以及所述转移特征概率,确定汉字内容的各汉字所属的词性标签。通过运行本申请所提供的技术方案,可以通过BERT模型来替换现有技术中所采用的BiLSTM模型,从而实现使得到的向量特征更加丰富,可以提高训练效率的目的。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种语言信息的处理方法、装置、存储介质及电子设备。
背景技术
随着网络技术的迅速发展,人工智能已经成为了现今社会的时代热词。NLP(Natural Language Processing,自然语言处理)作为自然语言识别的重要方法,在对用户的意图识别中起到重要作用。因此在人工智能的发展过程中,一直占据着重要地位。
命名实体识别(Named Entity Recognition,NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类),七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。NER是NLP中一项基础性关键任务。从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。
现有技术中,在基于机器学习的方法中,NER被当做序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。NER任务中的常用模型包括生成式模型HMM、判别式模型条件随机域模型(Conditional Random Field,CRF)等,是NER目前的主流模型。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD(stochastic gradient descent,随机梯度下降)学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用Viterbi算法解码来得到最优标签序列。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。
目前使用DL-CRF模型做序列标注开始流行起来,在神经网络的输出层接入CRF层(重点是利用标签转移概率)来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
BiLSTM-CRF是当前主流的基于深度学习的序列标注模型。BiLSTM-CRF中,BiLSTM部分主要用于,根据一个词的上下文,给出当前词所属标签的概率分布,可以把BiLSTM看成一个编码层。比如,对标签{B-Person,I-Person,B-Organization}和单词“满帮”来说,BiLSTM可能会输出(0.1,0.08,1.5)的非归一化概率分布。这些分布是CRF层的状态特征函数,还需要CRF层来计算标签之间的转移特征概率。通过状态特征和转移特征联合求解单词所属的标签。
BiLSTM是双向的递归神经网络架构,其训练数据来自于少量的有标签样本,对每个单词提取的特征有限,尤其是在OOV问题上表现效果很差。另外BiLSTM对GPU资源利用率低,不能实现并行化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏满运软件科技有限公司,未经江苏满运软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911315545.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置