[发明专利]一种基于深度学习的文本语义提取方法在审

申请号：	202110295550.0	申请日：	2021-03-19
公开（公告）号：	CN113051909A	公开（公告）日：	2021-06-29
发明（设计）人：	钱丽萍;钱江;沈铖潇;王寅生	申请（专利权）人：	浙江工业大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习文本语义提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于深度学习的文本语义提取方法，对于一个较长文本输入，经过系统模型，能够最大程度上还原文本语义。本发明结合了循环神经网络(RNN)以及自我注意力机制(Self‑Attention)优势，极大程度上改善了文本语义提取效果，节省了深度学习模型计算资源总成本，有效地降低了文本语义提取时间，使读者获得更优质的阅读体验。

技术领域

本发明属于人工智能领域，一种基于深度学习的文本语义提取方法。

背景技术

随着近年来移动通信的蓬勃发展，碎片化时代不可避免地到来，生活节奏的加快使得越来越多的人在阅读长篇文章时往往没有时间阅读完整。这就需要文本语义提取工具将长篇文本提取出其中的语义，以最大限度地节省读者的时间，同时读者也能够轻易地领会文章的主旨要义。但是，传统的基于循环神经网络 (Recurrent Neural Networks,RNN)或卷积神经网络(Convolutional Neural Networks, CNN)的语义提取模型效果较差，无法达到领会全文主旨的预期效果，近年来有学者提出基于长短期记忆网络模型(LongShort-Term Memory,LSTM)来进行文本语义提取，使得语义还原效果较循环神经网络或卷积神经网络有了一定的提升。

发明内容

为了克服传统语义提取方法模型运算时间长，语义还原效果较差的缺点，旨在以深度学习为基础，本发明提出一种文本语义提取方法。本发明创新性地将 RNN以及自我注意力机制(Self-Attention)结合，对传统的单一序列到序列模型做出了改进，能够最大程度上还原语义，在控制以及通信领域能够得到较好的应用。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习的文本语义提取方法，包括以下步骤：

1)在预处理阶段中的操作如下：将所要传输的句子s标准化为词数个数为n，参数n可以自行设定；然后将所要传输的句子输入jieba中文分词模型，进行分词处理，得到w₁,w₂,w₃,···,w_n，接着将w₁,w₂,w₃,···,w_n输入word2vec中文预训练模型，最后输出每一个单词所对应的词向量，用e₁,e₂,e₃,···,e_n表示，词向量组e₁,e₂,e₃,···,e_n记作E；