[发明专利]基于深度神经网络的自然语言语义分析系统及方法在审

申请号：	201710172099.7	申请日：	2017-03-22
公开（公告）号：	CN107015963A	公开（公告）日：	2017-08-04
发明（设计）人：	李鹏华;赵芬;孙健;朱智勤;程安宇;米怡	申请（专利权）人：	重庆邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30;G06N3/04
代理公司：	北京科亿知识产权代理事务所(普通合伙)11350	代理人：	汤东凤
地址：	400065 重***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度神经网络的自然语言语义分析系统及方法，包括构建知识图、输入训练集、得到N‑Gram概率模型、利用word2vec将词表征为向量得到矩阵作为输入、利用深度置信网络模型进行实体识别、输入验证集，调整分类器参数、输入测试集，测试模型的分类能力、采用知识图的方法，对语言描述中的实体进行推理、得到相应结论。与现有技术相比，本发明采用知识图的方法对语言描述中的实体进行推理，得到相应的结论，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力，具有推广使用的价值。
搜索关键词：	基于深度神经网络自然语言语义分析系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于深度神经网络的自然语言语义分析系统及方法，其特征在于，包括以下步骤：(1)构建知识图，用知识图作为实体构造的知识表示方法，以期基于此建立出知识表示准确的实体；以长短文本为语义知识资源，知识图为语义表示方法，构建一种基于深度神经网络下的自然语言语义知识图，利用构建的知识图对自然语言中的实体进行描述；(2)输入训练集；(3)利用基于统计的分词方法中的N‑Gram算法，N‑Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关，第n个词的出现只与前面n‑1个词相关，而与其它任何词都不相关，设W1，W2，…，Wn是长度为n的字串，由于预测词Wn的出现概率，必须知道它前面所有词的出现概率，太过复杂；为了简化计算，规定任意词Wi只与其前两个相关，得到三元概率模型如下:P(W)≈P(W1)P(W2/W1)∏i＝3…n P(Wi/IWi‑2Wi‑1) (1)以此类推，N元模型就是假设当前词的出现概率只同它前面的N‑1个词有关而得出的；(4)利用word2vec将词表征为向量，得到矩阵作为输入；Word2vec以文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用；Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型；词汇可以通过数值向量量化表示，词汇之间的相似度可以由向量计算得到；(5)利用深度置信网络模型进行实体识别，实体识别的目的是识别出数据集中描述同一真实世界实体的元组；利用深度置信网络模型进行基于特征的实体关系抽取任务；(6)输入验证集，调整分类器参数；(7)输入测试集，测试模型的分类能力；(8)采用知识图的方法，对语言描述中的实体进行推理；(9)得到相应结论；构建基于深度置信网络的知识图，实现对自然语言语义的分析和理解，有利于可视化或分类，得出相应的结论。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710172099.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度神经网络的自然语言语义分析系统及方法在审

专利文献下载