[发明专利]一种基于深度神经网络的文本一致性分析方法有效
申请号: | 201710874012.0 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107766324B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 崔白云;李英明;张仲非 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 张宇娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 文本 一致性 分析 方法 | ||
本发明公开了一种基于深度神经网络的文本一致性分析方法。当一段文本输入之后,首先采用分布式的方法把句子中的每一个单词翻译成向量构成分布式句子矩阵,然后统计相邻句子中重复出现过的单词,通过扩大矩阵维度的方式加入相邻句子间的重复信息;其次,利用卷积神经网络学习句子分布式表示,提取句中重要的逻辑、语义、句法等特征构成句子向量;接着,计算相邻句子向量之间相似程度来加入上下文关联内容,最后不断地训练神经网络,输出文本一致性的概率。本方法的特点在于,不用进行复杂的人工特征提取操作,也不依赖外部资源,相比于现有的一致性分析技术,本发明提出的方法在准确率上有了很大的提升,具有较好的实用价值。
技术领域
本发明属于自然语言处理技术领域,涉及一种基于深度神经网络的文本一致性分析方法。
背景技术
文本一致性分析是指从逻辑和句法的角度判断多个文本句子是否一致,从而让多语句的文本在逻辑上和语义上更加有意义,可以应用于机器翻译、问答系统与文本自动生成系统中。
现有的文本一致性研究方法主要分为两大类。第一类主要依靠特征工程,也就是人工定义一些具有代表性的特征去捕获交叉句子之间的逻辑和句法等关系,将目标文档中的每个句子编码成具有区别性的特征向量然后比较这些特征之间的相似程度,相似程度大于一定的值就表明这两个句子有一致性且它们的表达具有连贯性。但是,这些特征难以被规范化地定义,选择与表达特征是一个经验性的过程,由直觉、经验和领域专业知识驱动而成,此外要适应新的文本领域需要增加新的甚至是现在不存在的一些资源,所耗费的代价十分大。
第二类就是采用深度学习的方法,通过训练神经网络,学习给定任务最优的句子表示,有效地捕捉句子中每个单词的分布式组成形式并映射到一个连续化的句子表示中去,获取句子的语义与句法内容。目前运用在这个问题上主要有两种网络,循环神经网络与递归神经网络。循环神经网络的优点在于它实现过程方便,不依赖外部更深层结构(例如,解析树)。然而由于梯度消失问题,长距离词的关系难以捕捉,还有尽管两个标记在字序列中距离很远,它们可以在结构上彼此接近。另一种递归神经网络依赖并操作结构化输入,每一个树的叶节点对应于原始句子中的单词,它在子节点的基础上以自下而上的方式迭代地计算每个父节点的表示,直到获得根节点的表示,并利用根节点嵌入式向量来表示整句话。虽然递归网络通过在解析树上构建卷积可以获得更好的性能,而不是像循环网络那样简单地在句子中堆积词语,但其不太容易实现,需要类似解析树之类的外部资源。
发明内容
鉴于现有的文本一致性分析方法存在的缺点和不足,本发明提出基于卷积神经网络学习输入的句子表示,并把它转化成为低维度的空间向量,保存其中重要的句法与输入的语义信息,更加简单高效,大大地提高文本一致性分析的准确率。
本发明的目的在于提供一种基于深度神经网络的文本一致性分析方法,利用卷积神经网络简单有效地捕捉句子中每个单词的分布式组成形式并映射到一个低维度连续化的句子向量中去,这些向量既能充分表示句子的语义与语法特征,又包含了相邻句子之间的关联信息。神经网络可以自动地学习这些向量,提取出对分析最有价值的信息,理解上下文的逻辑结构,大大提高一致性分析的准确率。
为实现上述目的,本发明的技术方案为:
一种基于深度神经网络的文本一致性分析方法,包括如下步骤:
S10:收集文本数据并进行变换构成文本数据集,通过所述文本数据集获取样本集,所述样本集包括训练集、验证集与测试集;
S20:构建句子模型,以无人监督的方式从大规模语料库中学习单词的分布式表示组成句子矩阵,加入相邻句子间的重复信息,采用第一种神经网络将所述句子矩阵进一步转化为低维度的分布式句子向量;
S30:通过计算相邻句子向量之间的相似程度加入句子之间的关联信息,构成完整样本向量,利用第二种神经网络计算所述完整样本向量局部一致性的概率大小;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710874012.0/2.html,转载请声明来源钻瓜专利网。