[发明专利]一种基于深度学习的文本自动生成方法有效
申请号: | 201810058680.0 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108197294B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 黄文明;卫万成;邓珍荣 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 自动 生成 方法 | ||
本发明公开了一种基于深度学习的文本自动生成方法,包括获得文本生成模型和调用文本生成模型两个阶段。第一阶段包括数据预处理;深度学习算法模型构建;训练深度学习模型;获得文本生成模型。第二阶段包括:接受用户输入的文本;提取用户输入文本的特征信息;调用文本生成模型;生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法模型,使得训练过程更加自动化,免去了过多的人工干预,训练过程采用一系列训练策略,使得文本生成模型生成的文本可读性更强。第二阶段,对用户输入信息进行分类,识别用户意图,跟据用户的意图生成出用户想要的文本。本发明方法实现相对简单,应用性强,尤其在文章生成方面将会有很大的应用。
技术领域
本发明属于计算机自然语言处理技术领域,具体涉及一种基于深度学习的文本自动生成方法。
背景技术
深度学习使近期人工智能研究取得了突破性的进展,它结束了人工智能长达十年未能有突破的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在计算机视觉、语音识别等领域得到极其成果的应用,在自然语言处理领域也取得了一定的成效。深度学习是实现人工智能最有效,也是取得成效最大的实施方法。
文本自动生成技术是自然语言处理的核心技术,在自然语言处理研究中文本生成技术尤为重要。目前人工智能领域中研究最火的机器写作、机器翻译、对话系统、图像描述等都包含文本生成。文本自动生成被认为是当代机器智能的重要标志,因为人们在创作文字的时候需要极强的想象力,机器必须能够“学习”文章的行文方式并“模拟”人脑的创作能力,因此极为困难。传统的文本生成有两种方式,包括统计机器翻译概率模型(StatisticalMachine Translation,SMT)和神经网络模型(Neural Networks,NN)。
统计机器翻译概率模型SMT是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。机器翻译是基于以下原理:将源语句到目标语句的翻译视为一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,机器翻译的任务为查找出概率最大的目标语句作为源语句的翻译结果。换句话说,SMT的首要任务是为语言的产生构造某种合理的统计模型,并在此统计的基础上,当数据与数据之间的关系难以用统计来描述时就无能为力了,此时可以利用神经网络模型NN来解决这一问题。
神经网络模型NN是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。NN具有如下优点:1)并行分布处理;2)高度鲁棒性和容错能力;3)分布存储及学习能力;4)能充分逼近复杂的非线性关系。正是由于上述优点,NN在各个邻域得到广泛应用。
然而,在文本自动生成过程中,SMT和传统的NN均具有无法克服的缺陷。
在文本自动生成过程中,SMT是将文本生成看作由后一句对前一句的翻译过程,并逐步生成全部文本。该SMT机器学习方法具有如下缺点:1)下一句的生成只依赖于前一句的信息,无法保证生成文本的完整性,即高度依赖于文本中的局部信息,对输入的语句的全局信息考虑不周全;2)其是字词之间的映射概率,在语义的方面建模能力较差,且往往只被应用在语义信息相等或近似的情况下,即其仅仅考虑了字词的信息,在语义上考虑十分不全,导致生成的文本语义混乱且不一致。
在文本创作过程中,传统的NN是将用户所给的信息通过神经网络压缩成信息向量,将该信息向量作为初始状态,通过神经网络逐句生成整个文本。该传统的NN具有如下缺点:1)在传统的NN模型训练过程中过于注重语义信息;2)生成的每一个字都只考虑同样的全局信息。由此导致生成的文本单一且较易偏向错误的方向,即不能够根据已生成的信息进行调整使得主题容易产生偏差。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810058680.0/2.html,转载请声明来源钻瓜专利网。