[发明专利]基于Transformer问题关键词预测的多样性问题自动生成方法有效

申请号：	202310331534.1	申请日：	2023-03-31
公开（公告）号：	CN116050401B	公开（公告）日：	2023-07-25
发明（设计）人：	周菊香;周明涛;李子杰;甘健侯;陈恳;徐坚	申请（专利权）人：	云南师范大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/216;G06F40/30;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08;G06Q30/0601
代理公司：	昆明明润知识产权代理事务所(普通合伙) 53215	代理人：	王鹏飞
地址：	650500 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 问题关键词预测多样性自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于，具体步骤如下：

Step 1 提取数据集中的商品文本信息并转化为向量形式，作为TKPCNet模型的输入；

Step 2 构建TKPCNet模型，首先构建一个Transformer问题关键词预测模型，然后构建一个编码器-解码器模型，通过卷积神经网络提取问题关键词的语义信息，使用线性变换的方式将语义信息映射成编码器-解码器起始输入的隐藏层信息，最后输送到模型的编码器和解码器的输入端进行融合，完成TKPCNet模型的构建；

Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成；

所述Step1的具体步骤如下：

Step 1.1：对数据集进行预处理；读取数据集中商品的上下文文本信息以及对应的问题，将商品上下文文本信息和问题进行分词，再进行词频统计；

Step 1.2：对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接，根据统计的词频将上下文文本信息和问题映射成向量形式；

所述Step3的具体步骤如下：

Step 3.1 解码器输出先采取谱聚类方式对问题的关键词进行聚类；

Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇，从而生成多样性问题；

所述Step1.2的具体步骤如下：

对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接，将商品的上下文文本和问题分词后的词汇，映射成可以识别的数组形式的列表集合，转换为TKPCNet模型需要的向量；再对上下文文本和问题的序列进行规范化操作，将上下文文本的序列长度大于阈值部分进行截断，对于上下文文本的序列长度小于阈值的，采取字符补齐；问题序列长度大于阈值部分进行截断，问题序列长度小于阈值部分采取字符补齐；对上下文文本和问题进行词到向量的映射，从而构建上下文文本信息和问题映射的序列向量形式；

多头自注意机制是指：在一个多头自注意力层中，将当前词汇嵌入平均划分为8块，并将每一块作为查询向量、键值对向量，然后分别乘以不同的可训练参数矩阵，并将其进行线性投影到、、维，更好的从多个角度捕获多维度语义信息，然后并行进行h个自注意力机制函数的运算过程得到h个维度的输出向量，最后将8个自注意力机制运算得到输出向量连接起来，并乘以一个参数矩阵作为该层的输出，自注意力机制函数的运算，得到具体公式表示如下式（5），多头自注意力机制的公式表示如下式（6）(7)：

；

其中Q,K,V分别表示对应的查询向量矩阵、键向量矩阵、值向量矩阵，T表示转置矩阵，表示键向量的矩阵表示键向量的维度，softmax(*)表示softmax层，用于输入当前词汇与上下文其它词汇的权重信息；；

MultiHead(*)表示多头自注意计算结果，其中的表示可训练的参数矩阵，其中每一个表示一个注意力头；

；

在这项工作中，关键词作为一个关键信息标记为，其中每个k表示提取关键词的单词。

2.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2的具体步骤如下：

Step 2.1 构建端到端的TKPCNet网络模型的编码器，在编码端使用多层双向循环神经网络对文本语义信息进行编码；

Step 2.2 构建一个基于Transformer问题关键词预测模型，使用Transformer编码上下文文本的语义信息，预测问题关键词的重要性，接着使用卷积神经网络提取问题关键词的语义信息，最后通过线性变换的方式，将提取问题关键词的语义信息，替换成编码器和解码器第一个字符的起始输入；

Step 2.3：构建端到端的TKPCNet模型的解码器，在解码端使用循环神经网络对目标问题进行解码；

Step 2.4：构建端到端的TKPCNet模型，通过将增强的编码器-解码器模型和基于Transformer问题关键词预测模型进行结合，共同构成一个端到端的TKPCNet模型。

3.根据权利要求2所述的基于Transformer问题关键词预测的多样性问题自动生成方法，其特征在于：所述Step2.1中，编码器端使用的是两层双向GRU，隐藏层使用的维度为100维。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南师范大学，未经云南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310331534.1/1.html，转载请声明来源钻瓜专利网。

上一篇：基于时空域的遥感影像统筹方法
下一篇：MVB通信配置方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer问题关键词预测的多样性问题自动生成方法有效

专利文献下载