[发明专利]基于Transformer问题关键词预测的多样性问题自动生成方法有效

专利信息
申请号: 202310331534.1 申请日: 2023-03-31
公开(公告)号: CN116050401B 公开(公告)日: 2023-07-25
发明(设计)人: 周菊香;周明涛;李子杰;甘健侯;陈恳;徐坚 申请(专利权)人: 云南师范大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/216;G06F40/30;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08;G06Q30/0601
代理公司: 昆明明润知识产权代理事务所(普通合伙) 53215 代理人: 王鹏飞
地址: 650500 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 transformer 问题 关键词 预测 多样性 自动 生成 方法
【权利要求书】:

1.基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于,具体步骤如下:

Step 1 提取数据集中的商品文本信息并转化为向量形式,作为TKPCNet模型的输入;

Step 2 构建TKPCNet模型,首先构建一个Transformer问题关键词预测模型,然后构建一个编码器-解码器模型,通过卷积神经网络提取问题关键词的语义信息,使用线性变换的方式将语义信息映射成编码器-解码器起始输入的隐藏层信息,最后输送到模型的编码器和解码器的输入端进行融合,完成TKPCNet模型的构建;

Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成;

所述Step1的具体步骤如下:

Step 1.1:对数据集进行预处理;读取数据集中商品的上下文文本信息以及对应的问题,将商品上下文文本信息和问题进行分词,再进行词频统计;

Step 1.2:对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式;

所述Step3的具体步骤如下:

Step 3.1 解码器输出先采取谱聚类方式对问题的关键词进行聚类;

Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇,从而生成多样性问题;

所述Step1.2的具体步骤如下:

对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接,将商品的上下文文本和问题分词后的词汇,映射成可以识别的数组形式的列表集合,转换为TKPCNet模型需要的向量;再对上下文文本和问题的序列进行规范化操作,将上下文文本的序列长度大于阈值部分进行截断,对于上下文文本的序列长度小于阈值的,采取字符补齐;问题序列长度大于阈值部分进行截断,问题序列长度小于阈值部分采取字符补齐;对上下文文本和问题进行词到向量的映射,从而构建上下文文本信息和问题映射的序列向量形式;

多头自注意机制是指:在一个多头自注意力层中,将当前词汇嵌入平均划分为8块,并将每一块作为查询向量、键值对向量,然后分别乘以不同的可训练参数矩阵,并将其进行线性投影到、、维,更好的从多个角度捕获多维度语义信息,然后并行进行h个自注意力机制函数的运算过程得到h个维度的输出向量,最后将8个自注意力机制运算得到输出向量连接起来,并乘以一个参数矩阵作为该层的输出,自注意力机制函数的运算,得到具体公式表示如下式(5),多头自注意力机制的公式表示如下式(6)(7):

其中Q,K,V分别表示对应的查询向量矩阵、键向量矩阵、值向量矩阵,T表示转置矩阵,表示键向量的矩阵 表示键向量的维度,softmax(*)表示softmax层,用于输入当前词汇与上下文其它词汇的权重信息;;

MultiHead(*)表示多头自注意计算结果,其中的表示可训练的参数矩阵,其中每一个表示一个注意力头;

在这项工作中,关键词作为一个关键信息标记为,其中每个k表示提取关键词的单词。

2.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2的具体步骤如下:

Step 2.1 构建端到端的TKPCNet网络模型的编码器,在编码端使用多层双向循环神经网络对文本语义信息进行编码;

Step 2.2 构建一个基于Transformer问题关键词预测模型,使用Transformer编码上下文文本的语义信息,预测问题关键词的重要性,接着使用卷积神经网络提取问题关键词的语义信息,最后通过线性变换的方式,将提取问题关键词的语义信息,替换成编码器和解码器第一个字符的起始输入;

Step 2.3:构建端到端的TKPCNet模型的解码器,在解码端使用循环神经网络对目标问题进行解码;

Step 2.4:构建端到端的TKPCNet模型,通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合,共同构成一个端到端的TKPCNet模型。

3.根据权利要求2所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2.1中,编码器端使用的是两层双向GRU,隐藏层使用的维度为100维。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310331534.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top