[发明专利]基于深度学习的自然语言处理方法、装置及存储介质在审
申请号: | 202211099967.0 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115906823A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 杨阳蕊 | 申请(专利权)人: | 华北水利水电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/951;G06F18/23;G06F18/24;G06N3/048;G06N3/08;G10L15/22 |
代理公司: | 北京华锐创新知识产权代理有限公司 11925 | 代理人: | 孙晓 |
地址: | 450046 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 自然语言 处理 方法 装置 存储 介质 | ||
本公开涉及基于深度学习的自然语言处理方法、装置及存储介质,该方法包括:获取多媒体语料;采集多媒体语料并基于预设比例生成训练集和测试集;基于训练集进行词法分析;基于词法分析结果生成字典和字典树;基于字典和字典树构件循环神经网络模型;基于所述循环神经网络模型进行自然语言处理。本发明的基于深度学习的自然语言处理方法、装置及存储介质,具有更快的处理速度,同时针对具有更好的用户体验。
技术领域
本发明涉及一种信息处理方法,特别是一种基于深度学习的自然语言处理方法。本发明还涉及基于深度学习的自然语言处理装置及存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解和自然语言生成两部分。而其中的自然语言理解,就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点,例如,语言具有多样性、歧义性、鲁棒性、知识依赖以及上下文依赖等等,所以NLU是至今还远不如人类的表现。另一方面,对于自然语言生成来说,具体是指,将非语言格式的数据转换成人类可以理解的语言格式,其一般步骤包括内容确定、文本结构、句子聚合、语法化、参考表达生成、语言实现等步骤。具体呈现出来的流程可参见图1所示,由图1可见,在传统常见的自然语言处理流程中,通常包括有语句输入、词汇分析、语法分析、语意分析及转换输出等几个关键环节,而且,对应于每个环节,目前常见的算法包括有正向最大匹配算法、逆向最大匹配算法以及双向最大匹配算法等等。虽然,除了上述一般算法之外,目前也已有基于神经网络算法进行自然语言处理的研究,但相对来说进展缓慢,与正向最大匹配算法等其他算法相比较,优势并不明显,有待改进。
发明内容
鉴于现有技术存在的上述问题,本发明的一方面目的在于提供一种基于深度学习的自然语言处理方法。
为了实现本发明的第一方面目的,本发明提供的基于深度学习的自然语言处理方法,该方法包括:
获取多媒体语料;
采集多媒体语料并基于预设比例生成训练集和测试集;
基于训练集进行词法分析;
基于词法分析结果生成字典和字典树;
基于字典和字典树构件循环神经网络模型;
基于所述循环神经网络模型进行自然语言处理。
作为优选,获取多媒体语料,包括:
针对预设的多媒体网站,获取多媒体文件;
针对所述多媒体文件进行语音识别;
针对语音识别结果进行预设类别的分类,所述预设类别包括歌曲、影视、短视频、新闻资讯。
作为优选,获取多媒体文件,包括:
基于爬虫算法获取多媒体数据;
抽取多媒体数据的音频信息并进行存储。
作为优选,针对所述多媒体文件进行语音识别,包括:
针对存储的音频信息进行基于语音识别算法的语音识别,生成文本信息;
针对所述文本信息进行语意分析,并针对语意分析结果进行聚类;
基于聚类结果获取不同语法结构的多个向量矩阵。
作为优选,采集多媒体语料并基于预设比例生成训练集和测试集,包括:
基于Web API接口获取多个所述向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北水利水电大学,未经华北水利水电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211099967.0/2.html,转载请声明来源钻瓜专利网。