[发明专利]基于多模态信息输入的人工智能文本创作方法在审

申请号：	202210932040.4	申请日：	2022-08-04
公开（公告）号：	CN115309886A	公开（公告）日：	2022-11-08
发明（设计）人：	曹乾;陈旭;宋睿华	申请（专利权）人：	中国人民大学
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/33;G06N3/04;G06N3/08
代理公司：	北京邦创至诚知识产权代理事务所(普通合伙) 11717	代理人：	张宇锋
地址：	100872 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态信息输入人工智能文本创作方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创造方法包括多模态数据构造以及文本创作模型两部分；其中，

所述多模态数据构造的具体方法如下：首先从网络上爬取大量的歌词，并对其进行符合特定模式地拆分成不同的段落，这些段落由不同的分句构成；将歌名作为任务中需要用到的主题信息，在一个大规模的电影梗概的图文数据集GraphMovie上，采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选；对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量；同时，不同相关性的排名信息将有助于构造不同质量的正负样本，用于后续模型的训练；由此，对于每个歌词段落，都能获取不同相关性质量的图文对候选序列来构成数据样本，进而形成特定任务下的数据集；

所述文本创作模型由四个部分组成；前三部分构成编码器，具体来说，原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入；然后，每一步的嵌入被分成不同的部分来影响最终的输出；最后，不同的模态与注意力网络融合在一起；最后一部分是解码器，旨在预测最终的输出句子。

2.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第一部分具体为：原始图像和文本的格式和语义在不同的空间中呈现；为了适应它们，设计多通道序列处理器，首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间，然后输入到这些编码器神经网络中；这些编码器可以是循环神经网络或Transformer，最终可以通过权衡有效性和效率来选择具体采用的模块；输出则是一个隐式的嵌入序列；对于输入的图片和文本序列都经过这样的处理。

3.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第二部分具体为：文本创作模型是一个序列到序列的架构；然而，与机器翻译类传统任务不同，每个输入词严格对应一个输出词，在本申请的问题中，图像或文本可能会影响输出序列的跨度；为了对这些限制特点进行建模，设计了一个定制的模块来捕捉输入对输出的影响；具体来说，让上一节中推导出的隐藏嵌入具体地影响输出序列；对于这些隐藏嵌入，在各个通道内设计了模态间的注意力机制，用来捕获不同时间步对于其他时间步的影响，以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入；为了将直觉编码到定制的模块中，进一步引入了一个正则化器来约束注意力权重的学习；形式上，最小化注意力权重和一个预定义的分布之间的距离，从而定义一个这两者之间的KL损失函数来进行优化和学习；通过最小化KL损失，使用先验规则化注意力权重，这编码了更大的输入-输出距离应该导致更低影响的直觉，从而让模型能够对输入的顺序有好的敏感性；用关于注意力权重分布的先验知识来缩小探索空间，以带来更好的收敛率和优化解决方案。

4.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第三部分具体为：基于上面输出的部分隐藏嵌入，融合不同的模态来推导出编码器的输出；具体来说，编码器的输出由L个嵌入组成，每个嵌入对主题、视觉和文本信息进行综合性的编码；通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入；对于每一对步骤，不同的模态以一种特定的注意力方式加权组合在一起；直观地说，对于同一个输出句子，不同的模态可能扮演不同的角色；因此，在组合它们时采用模态间的注意力机制；如果比较上述两个注意力机制，可能会发现前者部署在同一模态的不同步骤中，而后者的目标是在同一步骤中捕捉不同模态的贡献；这样的设计实际上形成了一个2D注意力机制，从而以更细粒度的方式对不同位置和模态的影响进行建模。

5.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第四部分具体为：对于基于上述模块输出的嵌入生成输出而言，合并不同的嵌入作为提示，直接归纳输出所有的生成语句；然而，这种策略对于保留输入的顺序语义可能不是最优的，因为有序信息可能会被合并操作削弱；为了解决上述问题，让每个经验嵌入分别影响输出句子；形式上，在每一步将输出的该步的嵌入和词嵌入相加，并将主题词作为提示，然后整体输入到解码器里面进行生成；这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。

6.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，为了最大化从正样本输入生成目标输出的概率，同时最小化从负样本输入生成目标输出的概率，通过课程学习的方式对文本创作模型进行训练，具体训练方法为：首先学习最负样本，以便更好地初始化模型优化；一旦模型学会了足够的模式来处理最负面的模式，就会逐渐在正负边界附近引入更难的样本；更具体地说，评估输入图像/文本与输出的相关性，并构建5个级别的样本；Level-5表示最相关的输入，Level-1表示输入和输出最不相关；在训练过程中，首先用Level-5和Level-1样本训练模型，然后将Level-4和Level-2分别纳入正负样本集，用由易到难的逐渐递增的方式引导模型的学习。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210932040.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种儿茶酚纳米颗粒、儿茶酚蛋白质纳米颗粒及其制备方法和应用
下一篇：一种基于数据驱动的WFGD出口SO2

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多模态信息输入的人工智能文本创作方法在审

专利文献下载