[发明专利]基于深度神经网络的自然语言语义分析系统及方法在审
申请号: | 201710172099.7 | 申请日: | 2017-03-22 |
公开(公告)号: | CN107015963A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 李鹏华;赵芬;孙健;朱智勤;程安宇;米怡 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 自然语言 语义 分析 系统 方法 | ||
1.一种基于深度神经网络的自然语言语义分析系统及方法,其特征在于,包括以下步骤:
(1)构建知识图,用知识图作为实体构造的知识表示方法,以期基于此建立出知识表示准确的实体;以长短文本为语义知识资源,知识图为语义表示方法,构建一种基于深度神经网络下的自然语言语义知识图,利用构建的知识图对自然语言中的实体进行描述;
(2)输入训练集;
(3)利用基于统计的分词方法中的N-Gram算法,N-Gram模型思想:一个单词的出现与其上下文环境中出现的单词序列密切相关,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,设W1,W2,…,Wn是长度为n的字串,由于预测词Wn的出现概率,必须知道它前面所有词的出现概率,太过复杂;为了简化计算,规定任意词Wi只与其前两个相关,得到三元概率模型如下:
P(W)≈P(W1)P(W2/W1)∏i=3…n P(Wi/IWi-2Wi-1) (1)
以此类推,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关而得出的;
(4)利用word2vec将词表征为向量,得到矩阵作为输入;Word2vec以文本语料库作为输入,首先在训练文本数据集中构建一个词汇表,然后训练出每个单词的词向量作为输出,产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用;Word2Vec模型提取文本中词汇的位置关系,提取词汇的上下文信息,生成词汇的向量模型;词汇可以通过数值向量量化表示,词汇之间的相似度可以由向量计算得到;
(5)利用深度置信网络模型进行实体识别,实体识别的目的是识别出数据集中描述同一真实世界实体的元组;利用深度置信网络模型进行基于特征的实体关系抽取任务;
(6)输入验证集,调整分类器参数;
(7)输入测试集,测试模型的分类能力;
(8)采用知识图的方法,对语言描述中的实体进行推理;
(9)得到相应结论;构建基于深度置信网络的知识图,实现对自然语言语义的分析和理解,有利于可视化或分类,得出相应的结论。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710172099.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:触摸屏用实体键盘及POS机
- 下一篇:一种触控条蓝牙键盘