[发明专利]一种基于预训练语言模型的文本生成方法有效
申请号: | 202210133050.1 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114510924B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 冯骁骋;秦兵;顾宇轩;刘挺;马思成 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 文本 生成 方法 | ||
1.一种基于预训练语言模型的文本生成方法,其特征在于,所述方法具体包括以下步骤:
步骤一、获取用于文本生成的基线模型;
步骤二、计算获取的基线模型中的预训练语言模型在当前解码位置下生成目标风格的倾向;
所述步骤二的具体实现过程采用下述方式A或方式B;
方式A的具体流程为:
给定主题风格a和主题风格a所对应的词表Wa={w1,w2,...,wk};
其中,wk为主题风格a中第k个主题相关的关键词;
则预训练语言模型在当前解码位置i下生成目标风格的倾向tH为:
其中,P(xi=w|x<i)为当前解码位置i下词表Wa中单词w出现概率;
方式B的具体流程为:
给定属于风格a的文本集合为Da,不属于风格a的文本集合为Da’,count(u,Da)为一个n-gram词组u出现在文本集合Da中的次数,则词组u相对于风格a的重要程度分数score(u,a)为:
其中,∈是用于平滑的超参数,count(u,Da’)为词组u出现在文本集合Da’中的次数;
同理,分别得到各个n-gram词组相对于风格a的重要程度分数;
根据获得的重要程度分数对文本集合中的词组进行标注,并在基线模型中引入额外的attention层作为规整模块,规整模块的输出为:
K=Wk·HT
V=Wv·HT
c=softmax(Q·K)·V
其中,H为预训练语言模型对于给定上文计算出的隐状态表示向量,HT为H的转置,H=(h1,h2,...,hi),hi是预训练语言模型在当前解码位置i时计算出的隐状态表示,c是attention层计算出的整体表示;则
其中,Wk,Wv,W,Q均为参数矩阵,K和V为中间变量,tT为在当前解码位置下生成目标风格的倾向,softmax(W·c)[n]代表取出softmax(W·c)结果中的第n维数值,n代表标注的第n类,n=1,2,…,10,n′代表第n类所对应分数区间的中位数;
所述根据获得的重要程度分数对文本集合中的词组进行标注,标注方法为:
将各个n-gram词组相对于风格a的重要程度分数正则化到(0,1]之间后,
若某个n-gram词组对应的正则化值在(0,0.1]之间,则将该n-gram词组标注为第1类;
若某个n-gram词组对应的正则化值在(0.1,0.2]之间,则将该n-gram词组标注为第2类;
若某个n-gram词组对应的正则化值在(0.2,0.3]之间,则将该n-gram词组标注为第3类;
若某个n-gram词组对应的正则化值在(0.3,0.4]之间,则将该n-gram词组标注为第4类;
若某个n-gram词组对应的正则化值在(0.4,0.5]之间,则将该n-gram词组标注为第5类;
若某个n-gram词组对应的正则化值在(0.5,0.6]之间,则将该n-gram词组标注为第6类;
若某个n-gram词组对应的正则化值在(0.6,0.7]之间,则将该n-gram词组标注为第7类;
若某个n-gram词组对应的正则化值在(0.7,0.8]之间,则将该n-gram词组标注为第8类;
若某个n-gram词组对应的正则化值在(0.8,0.9]之间,则将该n-gram词组标注为第9类;
若某个n-gram词组对应的正则化值在(0.9,1.0]之间,则将该n-gram词组标注为第10类;
步骤三、根据预训练语言模型在当前解码位置下生成目标风格的倾向对控制器进行约束,得到在当前解码位置下的条件生成概率;
根据条件生成概率进行目标风格的文本生成;
对应于方式A,步骤三中所采取的具体过程为:
其中,P(X|a)为在当前解码位置下的条件生成概率,P(xi|x<i)为预训练语言模型在当前解码位置i时产生的概率分布,λ为超参数,f(a,P(x≤i)为在当前解码位置i时对控制器的约束函数,P(a|x<i)为控制器在当前解码位置i时产生的概率分布,N代表总的解码位置数;
f(a,P(x≤i))=tH/τH
其中,τH为设定的阈值,tH为预训练语言模型在当前解码位置i下生成目标风格的倾向;
对应于方式B,步骤三中所采取的具体过程为:
其中,P(X|a)为在当前解码位置下的条件生成概率,P(xi|x<i)为预训练语言模型在当前解码位置i时产生的概率分布,λ为超参数,f(a,P(x≤i)为在当前解码位置i时对控制器的约束函数,P(a|x<i)为控制器在当前解码位置i时产生的概率分布,N代表总的解码位置数;
f(a,P(x≤i))=tT/τT
其中,τT为设定的阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210133050.1/1.html,转载请声明来源钻瓜专利网。