[发明专利]一种基于深度学习的文本语义提取方法在审

申请号：	202110295550.0	申请日：	2021-03-19
公开（公告）号：	CN113051909A	公开（公告）日：	2021-06-29
发明（设计）人：	钱丽萍;钱江;沈铖潇;王寅生	申请（专利权）人：	浙江工业大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习文本语义提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的文本语义提取方法，其特征在于，所述方法包括以下步骤：

1)在预处理阶段中的操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定；然后将所要传输的句子输入jieba中文分词模型，进行分词处理，得到w₁,w₂,w₃,···,w_n，接着将w₁,w₂,w₃,···,w_n输入word2vec中文预训练模型，最后输出每一个单词所对应的词向量，用e₁,e₂,e₃,···,e_n表示，词向量组e₁,e₂,e₃,···,e_n记作E；

2)将词向量e₁,e₂,e₃,···,e_n输入单层循环神经网络，保留最后时刻循环神经网络隐藏层的输出向量，记为t₁；该循环神经网络模型的权重由电影评论数据集训练得到；

3)将词向量组e₁,e₂,e₃,···,e_n输入至编码器，编码器分为相同两层。在编码器第一层中，词向量组首先进入自我注意力机制，计算过程说明如下：

qⁱ＝W^q×E，i∈[1,n] (1)

kⁱ＝W^k×E (2)

vⁱ＝W^v×E (3)

W^q,W^k,W^v：维数为300的方阵，元素由系统模型经过训练得到，E：词向量组e₁,e₂,e₃,···,e_n；

4)对于每一个qⁱ(i∈[1,n])，都令其与每一个kⁱ(i∈[1,n])进行点乘运算，对于q¹分别得到α_1,1,α_1,2,α_1,3,···,α_1,n，将α_1,1,α_1,2,α_1,3,···,α_1,n经过soft-max层进行归一化操作，得到其中：

再将分别与各自对应的v¹,v²,v³,···,vⁿ相乘，将所得结果累加得到向量b¹；将上述操作进行n次，得到向量b¹,b²,b³,···,bⁿ，公式如下：

至此，完成第一次自我注意力机制操作；将自我注意力机制操作生成的向量称为思想向量，如b¹,b²,b³,···,bⁿ；

5)将思想向量b¹,b²,b³,···,bⁿ分别输入单层前馈神经网络FFNN，分别得到向量f¹,f²,f³,···,fⁿ，维数与b¹,b²,b³,···,bⁿ相同；

6)向量f¹,f²,f³,···,fⁿ进入编码器第二层，重复进行第一层中的自我注意力操作以及经过前馈神经网络，由第二层前馈神经网络输出向量组将向量分别与向量t₁相加，最终得到编码器第二层输出的向量组u¹,u²,u³,···,uⁿ，将u¹,u²,u³,···,uⁿ分别乘以维数为300的方阵分别得到向量

7)进入解码器部分，解码器同样分为两层，第一层中，首先将由一个维数为300的初始种子词向量start输入至解码器开始进行解码操作；

8)由第一个目标单词词向量作为解码器第二次解码的输入，同理将第一个目标单词的词向量乘以维数为300的方阵W^q',W^k',W^v'，得到对应向量m^q,m^k,m^v保留以进行后续操作；

9)第二个目标单词作为解码器第三次解码的输入，后续重复上述解码操作步骤，直至输出所有目标单词，从而得到预测句子s^；

10)通过最小化损失函数来训练模型参数，模型参数包括矩阵元素与神经网络权重。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110295550.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种防火型气凝胶保温隔热中涂漆及其制备方法
下一篇：一种提高电光转换效率的LED灯珠封装方式与电路结构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的文本语义提取方法在审

专利文献下载