[发明专利]使用神经网络处理文本序列有效
申请号: | 201780073530.0 | 申请日: | 2017-10-24 |
公开(公告)号: | CN110023963B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | N.E.卡尔奇布伦纳;K.西蒙延;L.埃斯佩霍尔特 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/048;G06N3/082;G06N3/0455;G06F40/58 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 处理 文本 序列 | ||
用于神经机器翻译的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,系统被配置为接收表示源自然语言中的单词的源序列的源嵌套的输入序列,并且生成表示单词的目标序列的目标嵌套的输出序列,所述单词的目标序列为所述源序列到目标自然语言的翻译,该系统包括:扩张卷积神经网络,被配置为处理源嵌套的输入序列以生成源序列的编码表示,以及掩蔽的扩张卷积神经网络,被配置为处理源序列的编码表示以生成目标嵌套的输出序列。
背景技术
本说明书涉及使用神经网络处理文本序列。
技术领域
机器学习模型接收输入并基于接收的输入生成输出,例如预测的输出。一些机器学习模型是参数模型,并基于接收的输入和模型的参数的值生成输出。
一些机器学习模型是深度模型,其采用多层模型来生成接收的输入的输出。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收的输入以生成输出。
发明内容
本说明书描述了在一个或多个位置上的一个或多个计算机上实现为计算机程序的系统,其执行序列转换任务(例如,将文本从源语言翻译成目标语言)、执行文本概括或执行语音识别。
根据第一方面,提供了一种用于处理文本序列的神经机器翻译系统。该系统被配置为接收表示源序列的源嵌套的输入序列,例如源自然语言中的单词的序列,并且生成表示目标序列的目标嵌套的输出序列,例如如下单词的序列,所述单词的序列为所述源序列到目标自然语言的翻译,该系统包括:扩张卷积神经网络,被配置为处理源嵌套的输入序列以生成源序列的编码表示;掩蔽的扩张卷积神经网络,被配置为处理源序列的编码表示以生成目标嵌套的输出序列。
在一些实施方案中,系统的掩蔽的扩张卷积神经网络被配置为使用动态展开来生成输出序列。例如,解码器基于先前生成的目标嵌套和编码源表示迭代地生成目标嵌套。
在一些实施方式中,编码表示是包括包括对于每个源嵌套的相应数据列的矩阵,并且其中,在输出序列中的每个时间步,掩蔽的扩张卷积网络被配置为将编码表示的对应列作为输入并生成目标嵌套。
在一些实施方式中,对于不具有编码表示中的对应列的每个时间步,系统被配置为向编码表示添加与该时间步对应的新列并将该列中的值设置为零。
在一些实施方式中,在每个时间步,掩蔽的扩张卷积神经网络以在所述时间步之前的时间步的编码表示和目标嵌套为条件。
在一些实施方式中,扩张卷积神经网络被配置为在整个扩张卷积神经网络中保持源嵌套的表示的分辨率。
在一些实施方式中,掩蔽的扩张卷积神经网络包括多个一维掩蔽的扩张卷积神经网络层。
在一些实施方式中,特定的一维掩蔽的扩张卷积神经网络层之后是子批次标准化层,其中,所述子批次标准化层被配置为在训练序列的批次上训练神经机器翻译系统期间:确定由特定的一维掩蔽的扩张卷积神经网络层对于所述训练序列的批次的辅助子批次中的训练序列生成的输出的批次标准化统计;和使用批次标准化统计标准化由特定的一维掩蔽的扩张卷积神经网络层对于所述训练序列的批次的不同于辅助子批次的主要子批次中的训练序列生成的输出。
在一些实施方式中,一维掩蔽的扩张卷积神经网络层中的一个或多个被包裹在包含一个或多个附加卷积层的残余块中。
在一些实施方案中,残余块包括修正线性单元(ReLU)激活层。
在一些实施方式中,残余块包括乘法单元激活层。
在一些实施方式中,多个一维掩蔽的扩张卷积神经网络层被分组为多个组,并且其中,在每个组内,该组中的一维掩蔽的扩张卷积神经网络层的扩张率每层翻倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780073530.0/2.html,转载请声明来源钻瓜专利网。