[发明专利]结合上下文实体词和知识的故事结局生成方法在审
申请号: | 201911001420.0 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110750652A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 黄清宝;刘庆广;韦杰龙;韩超 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/33;G06F40/205 |
代理公司: | 45104 广西南宁公平知识产权代理有限公司 | 代理人: | 杨立华 |
地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三元组 故事 知识库 上下文编码 词性标注 故事结局 解码处理 知识编码 重要信息 词向量 累积式 输入端 增强型 知识图 词性 语句 语法 嵌入 标注 注意力 并用 应用 | ||
本发明公开了一种结合上下文实体词和知识的故事结局生成方法,该法基于累积式增强型注意力序列到序列的模型,先基于词性标注先对上下文进行词性的标注,然后通过Glove词嵌入方法对故事上下文的词进行编码得到相对应的词向量,之后通过ConceptNet知识库网对每一个词进行三元组知识编码,并用知识图表示方法对三元组进行处理,同时结合得到的实体词一并和故事上下文编码到输入端,通过对输入的信息进行解码处理得到一组故事对应的结局序列。与现有技术相比,该法不是只考虑单方面的信息,而是同时考虑了三方面的重要信息。因此,应用本发明能够生成更加符合上下文情节趋势的结局语句,而且语法更流畅,情节更一致。
技术领域
本发明属于自然语言处理技术中自然语言文本生成领域,尤其涉及一种结合上下文实体词和知识的故事结局生成方法。
背景技术
文本生成是自然语言处理领域中极具挑战的任务,关于故事结局生成的方法需要理解整个不包含结局的故事上下文的整体意图和情节走向,因而需要处理更多的逻辑和因果关系信息,这些信息可能跨越一个故事上下文中的多个句子;同时也要特别关注一些比较重要的线索,一般都是一些实体词,数词和衔接词。
近年来关于文本生成中的故事结局生成的的研究越来越多,现有方法主要是针对如何理解上下文语义的研究。目前广泛使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型,大部分研究也都是基于该模型进行修改。其主要思路是捕捉上下文的情节走向,对上下文的内容进行建模,在对上下文建模的时也会加入额外的知识信息来捕捉一些隐藏的有用信息,以期能够生成符合上下文情节走向合理且一致结局。也有些研究是对情感强度这方面进行细粒度的研究,对于每一个故事都会有感情色彩在其中,所以在生成结局时控制细粒度的情感强度可以生成不同情感强度的结局语句。
由于故事结局生成任务更加注重的是符合上下文情节发展,所以需要同时重点考虑上下文的实体词和隐藏的一些有关的知识,同时目前对上下文编码的常规做法是将所有语句进行拼接成一个长序列进行编码,但由于长短时记忆网络在处理长序列时会出现遗忘先前的信息,所以将这个拼接成长序列输入到长短时记忆网络(LSTM)时会遗忘之前的内容信息,从而会导致信息的缺失。
发明内容
本发明要解决的技术问题是提供一种结合上下文实体词和知识的故事结局生成方法,该法采用累计式增强编码方式因此可以利用到更多信息,生成更加符合上下文情节趋势的结局语句。
为解决上述技术问题,本发明采用以下技术方案:
结合上下文实体词和知识的故事结局生成方法,该法基于累积式增强型注意力序列到序列的模型,先基于词性标注先对上下文进行词性的标注,然后通过Glove词嵌入方法对故事上下文的词进行编码得到相对应的词向量,之后通过ConceptNet知识库网对每一个词进行三元组知识编码,并用知识图表示方法对三元组进行处理,同时结合得到的实体词一并和故事上下文编码到输入端,通过对输入的信息进行解码处理得到一组故事对应的结局序列。
上述结合上下文实体词和知识的故事结局生成方法,具体包括以下步骤:
1)、构建累积式增强型注意力序列到序列的深度学习联合模型,该模型的输入是由不包含结局的故事文本上下文,上下文实体词和知识拼接好的词向量,输出是基于故事的结局的一组序列;
2)、对故事文本上下文的词进行词性标注,得到相应的词性词;
3)、通过知识获取处ConceptNet上得到每一个词三元组的知识信息,用知识图的形式进行表示;
4)、通过预训练好的Glove词嵌入方法将步骤2)和步骤3)中得到词和故事文本上下文中的词进行词向量的表示,同时将这三者通过一种累积式增强型的编码方式得到其隐含的状态信息;
5)、将得到的词向量(隐含状态信息)输入累积式增强型注意力序列到序列的深度学力联合模型中,最终得到的输出是一组故事对应结局的一组序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911001420.0/2.html,转载请声明来源钻瓜专利网。