[发明专利]基于多模态信息输入的人工智能文本创作方法在审
申请号: | 202210932040.4 | 申请日: | 2022-08-04 |
公开(公告)号: | CN115309886A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 曹乾;陈旭;宋睿华 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京邦创至诚知识产权代理事务所(普通合伙) 11717 | 代理人: | 张宇锋 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 信息 输入 人工智能 文本 创作方法 | ||
本发明公开了基于多模态信息输入的人工智能文本创作方法,该方法包括多模态数据构造以及文本创作模型两部分。本发明能够同时处理多模态图文序列信息作为输入,在给定主题词的条件下进行文本生成,将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成,更加符合人类创作的过程。此外,在方法上本发明的模型结构和训练方式更加合理,实验结果可靠,同时也印证了本发明方法的有效性,该方法也更易于后续扩展、迁移和再创造。
技术领域
本发明涉及人工智能、深度学习、自然语言生成技术领域,尤其是涉及一种基于多模态信息输入的人工智能文本创作方法。
背景技术
歌词生成和诗歌写作是两个典型的AI创作任务,其中生成的文本需要遵循一些格式和韵律。早期的歌词生成工作大多基于约束或基于检索的方法,试图通过将最佳相关的后一句与前一句的匹配来生成。后来的研究使用长短期记忆(LSTM)或自动编码器等神经网络来处理此任务,或是在解码器中添加分层注意机制。最近,预训练语言模型可以提供更好的基于条件的结果并考虑更多的韵律和节奏。在诗歌生成的任务中,早期的模型主要关注关键词扩展和对诗人的意图进行建模,直到随着像GPT这样的大型预训练语言模型的出现成为里程碑。除了文本信息之外,其他工作还尝试用图像启发诗歌生成。这些研究采用视觉输入来模拟人类的场景感知过程。基本上,这些方法从单个图像输入生成诗歌。现有的Images2Poem通过从图像流中选择具有代表性的图像并采用自适应自注意力机制进行解码,从图像流中生成中国古典诗歌,这与本申请的工作类似。
另一个相关的领域是通过采用多模态数据生成文本摘要的多模态摘要技术。然而,生成的摘要高度依赖源文本,这与本申请的主题限制的多模态创作任务不同。其他相关的任务如视觉叙事,它以多个连续图像作为输入,旨在生成连贯的故事。为了解决这个问题,许多工作利用CNN对图像流进行编码,并利用RNN类的模块来生成故事句子,或者使用分层结构以及一些专门设计的注意力机制。还有其他一些作品赋予模型适应主题的能力或结合视频进行视觉叙事。
尽管以上这些AI创作相关的工作要么基于文本要么基于图像进行文本生成,但它们都没有同时将图像和文本的多模态信息并结合主题词作为输入或条件进行创作。尽管基于图像写诗的工作有许多有希望的结果,但它们中的大多数从图像中识别关键字,例如图片中的对象或情绪,并采用关键字作为输入来影响诗歌生成过程。同时,仅仅输入多张图片的Images2Poem方法与本申请的工作类似,但构建的图像(每首诗约20幅图像)主要是一首诗中提到的对象,与本申请试图从一系列图像和其各自对应的文本中捕获顺序语义的模型有很大不同。为了模拟人类在创作过程中的具身体验,同时并非所有体验(例如感觉)都可以很好地可视化和表示,本申请构造了一个特定的数据集来适应本申请的设定和任务。本申请的目标是在给定的主题下,通过模拟人类的具身体验,给定具有顺序关系的多组图文对,能够生成与输入图像和对应文本颇具关联的文本,以此来填补在人工智能创作领域适应各种多模态输入进行文本生成的空白。
对于多模态摘要生成和视觉叙事任务而言,尽管有工作基于多模态信息进行生成,但很少有工作像本申请的设置一样同时使用主题和成对的图像文本输入更自由的文本创作的研究,这是对人类过往经历和体验的更真实的模拟。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于多模态信息输入的人工智能文本创作方法,以解决现有技术中存在的问题。
为了实现上述目的,本发明采用以下技术方案:
本发明提供一种基于多模态信息输入的人工智能文本创作方法,所述文本创造方法包括多模态数据构造以及文本创作模型两部分;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210932040.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置