[发明专利]基于深度神经网络的自然语言语义分析系统及方法在审

专利信息
申请号: 201710172099.7 申请日: 2017-03-22
公开(公告)号: CN107015963A 公开(公告)日: 2017-08-04
发明(设计)人: 李鹏华;赵芬;孙健;朱智勤;程安宇;米怡 申请(专利权)人: 重庆邮电大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06N3/04
代理公司: 北京科亿知识产权代理事务所(普通合伙)11350 代理人: 汤东凤
地址: 400065 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度神经网络的自然语言语义分析系统及方法,包括构建知识图、输入训练集、得到N‑Gram概率模型、利用word2vec将词表征为向量得到矩阵作为输入、利用深度置信网络模型进行实体识别、输入验证集,调整分类器参数、输入测试集,测试模型的分类能力、采用知识图的方法,对语言描述中的实体进行推理、得到相应结论。与现有技术相比,本发明采用知识图的方法对语言描述中的实体进行推理,得到相应的结论,使我们的自然语言理解功能不仅具备理解字面意思的能力,还具备逻辑推理,理解深层意思的能力,具有推广使用的价值。
搜索关键词: 基于 深度 神经网络 自然语言 语义 分析 系统 方法
【主权项】:
一种基于深度神经网络的自然语言语义分析系统及方法,其特征在于,包括以下步骤:(1)构建知识图,用知识图作为实体构造的知识表示方法,以期基于此建立出知识表示准确的实体;以长短文本为语义知识资源,知识图为语义表示方法,构建一种基于深度神经网络下的自然语言语义知识图,利用构建的知识图对自然语言中的实体进行描述;(2)输入训练集;(3)利用基于统计的分词方法中的N‑Gram算法,N‑Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n‑1个词相关,而与其它任何词都不相关,设W1,W2,…,Wn是长度为n的字串,由于预测词Wn的出现概率,必须知道它前面所有词的出现概率,太过复杂;为了简化计算,规定任意词Wi只与其前两个相关,得到三元概率模型如下:P(W)≈P(W1)P(W2/W1)∏i=3…n P(Wi/IWi‑2Wi‑1) (1)以此类推,N元模型就是假设当前词的出现概率只同它前面的N‑1个词有关而得出的;(4)利用word2vec将词表征为向量,得到矩阵作为输入;Word2vec以文本语料库作为输入,首先在训练文本数据集中构建一个词汇表,然后训练出每个单词的词向量作为输出,产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用;Word2Vec模型提取文本中词汇的位置关系,提取词汇的上下文信息,生成词汇的向量模型;词汇可以通过数值向量量化表示,词汇之间的相似度可以由向量计算得到;(5)利用深度置信网络模型进行实体识别,实体识别的目的是识别出数据集中描述同一真实世界实体的元组;利用深度置信网络模型进行基于特征的实体关系抽取任务;(6)输入验证集,调整分类器参数;(7)输入测试集,测试模型的分类能力;(8)采用知识图的方法,对语言描述中的实体进行推理;(9)得到相应结论;构建基于深度置信网络的知识图,实现对自然语言语义的分析和理解,有利于可视化或分类,得出相应的结论。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710172099.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top