[发明专利]基于深度学习的自然语言处理方法、装置及存储介质在审

申请号：	202211099967.0	申请日：	2022-09-07
公开（公告）号：	CN115906823A	公开（公告）日：	2023-04-04
发明（设计）人：	杨阳蕊	申请（专利权）人：	华北水利水电大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F16/951;G06F18/23;G06F18/24;G06N3/048;G06N3/08;G10L15/22
代理公司：	北京华锐创新知识产权代理有限公司 11925	代理人：	孙晓
地址：	450046 河南***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习自然语言处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及基于深度学习的自然语言处理方法、装置及存储介质，该方法包括：获取多媒体语料；采集多媒体语料并基于预设比例生成训练集和测试集；基于训练集进行词法分析；基于词法分析结果生成字典和字典树；基于字典和字典树构件循环神经网络模型；基于所述循环神经网络模型进行自然语言处理。本发明的基于深度学习的自然语言处理方法、装置及存储介质，具有更快的处理速度，同时针对具有更好的用户体验。

技术领域

本发明涉及一种信息处理方法，特别是一种基于深度学习的自然语言处理方法。本发明还涉及基于深度学习的自然语言处理装置及存储介质。

背景技术

自然语言处理(Natural Language Processing,NLP)是以语言为对象，利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解和自然语言生成两部分。而其中的自然语言理解，就是希望机器像人一样，具备正常人的语言理解能力，由于自然语言在理解上有很多难点，例如，语言具有多样性、歧义性、鲁棒性、知识依赖以及上下文依赖等等，所以NLU是至今还远不如人类的表现。另一方面，对于自然语言生成来说，具体是指，将非语言格式的数据转换成人类可以理解的语言格式，其一般步骤包括内容确定、文本结构、句子聚合、语法化、参考表达生成、语言实现等步骤。具体呈现出来的流程可参见图1所示，由图1可见，在传统常见的自然语言处理流程中，通常包括有语句输入、词汇分析、语法分析、语意分析及转换输出等几个关键环节，而且，对应于每个环节，目前常见的算法包括有正向最大匹配算法、逆向最大匹配算法以及双向最大匹配算法等等。虽然，除了上述一般算法之外，目前也已有基于神经网络算法进行自然语言处理的研究，但相对来说进展缓慢，与正向最大匹配算法等其他算法相比较，优势并不明显，有待改进。

发明内容

鉴于现有技术存在的上述问题，本发明的一方面目的在于提供一种基于深度学习的自然语言处理方法。

为了实现本发明的第一方面目的，本发明提供的基于深度学习的自然语言处理方法，该方法包括：

获取多媒体语料；

采集多媒体语料并基于预设比例生成训练集和测试集；

基于训练集进行词法分析；

基于词法分析结果生成字典和字典树；

基于字典和字典树构件循环神经网络模型；

基于所述循环神经网络模型进行自然语言处理。

作为优选，获取多媒体语料，包括：

针对预设的多媒体网站，获取多媒体文件；

针对所述多媒体文件进行语音识别；