[发明专利]一种文本风格的自动化评判方法有效
申请号: | 202210475512.8 | 申请日: | 2022-04-29 |
公开(公告)号: | CN114861629B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 陈峥;陈建树 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F16/31;G06F16/35;G06N3/084 |
代理公司: | 西安智萃知识产权代理有限公司 61221 | 代理人: | 许双田 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 风格 自动化 评判 方法 | ||
1.一种文本风格的自动化评判方法,其特征在于,该方法包括以下步骤:
步骤1)、使用句法分析工具HanLP对已有文本点评数据进行句法解析,得到python中list结构的数据结果;
步骤2)、单条数据风格标签提取:
a)自定义Node节点,使用自底向上的方法递归构造多叉树,将解析得到的数据结果还原为短语结构树的树状结构,使用一个哈希表A记录每个Node节点的短语性质与单词内容;
b)以“节点类型为VP且包含单词个数为3-5个”作为筛选规则进行标签提取,根据该筛选规则对哈希表A的数据节点进行过滤,得到符合条件的结果,并将该符合条件的结果存储在另一个哈希表B中,其中VP是指动词短语;
步骤3)、全量风格标签集合构造:将数据库中的每条数据都进行步骤2)的操作,得到最终的哈希表B,根据短语的频次进行倒序排序,取前K个短语作为模型训练数据的风格标签,所述模型为ALBERT预训练模型;
步骤4)、模型训练数据构造:使用负采样的方式构造二分类数据集,保持正负样本比例均衡,将其中一个数据正样本用标签1标识,然后随机选择一个没有出现在点评中的风格标签,使用相同拼接方式构造一个负样本,将其用标签0标识;
步骤5)、深度学习模型训练调优:采用深度学习模型训练框架对ALBERT预训练模型进行微调,并在验证集上进行性能验证。
2.根据权利要求1所述的文本风格的自动化评判方法,其特征在于,步骤3)中,风格标签使用最长公共子串算法进行判重,不能使用文本相似度很高的两个标签。
3.根据权利要求2所述的文本风格的自动化评判方法,其特征在于,步骤5)具体包括以下小步骤:
a、将构造的数据集中的序列打乱并小批量依次输入ALBERT预训练模型;
b、ALBERT预训练模型将输入进行预处理操作,将其转化为one-hot向量并进行嵌入操作,然后再嵌入位置信息和片段信息,其中标签文本的片段id为0,作文文本的片段id为1;
c、将预处理操作后的结果输入神经网络,分别与三个权重矩阵运算得到Q、K、V三个矩阵,Q、K、V分别经过自注意力模块得到每个字符与其他字符之间的注意力分数矩阵,运算方式如下:
其中,Zi为编码后的向量,T为矩阵转置,M为掩码矩阵,dk为单头注意力隐层向量维度,i为1至n的正整数;
d、利用多头注意力将Z1~Zn拼接到一起,随后传入一个线性层得到与多头注意力输入矩阵X同维度的最终输出Z;
e、在得到输入矩阵X同维度的最终输出Z后,利用多头注意力模块的最终输出Z与X进行残差连接,之后进行层归一化操作,将每一层神经元的输入都转成均值方差都转化为标准正态分布LayerNorm(X+Z);
f、ALBERT预训练模型中的前馈模块使用两层全连接层对结果进行处理,使得输出与输入的维度一致,之后再进行一次残差连接和层归一化操作,输出作为下一次循环的输入,循环N次后;
g、将ALBERT预训练模型中的CLS向量送入线性层、激活,并采用二分类交叉熵损失函数进行损失运算,并反向传播进行模型参数优化,其中,所述损失即loss的运算公式为:
loss=yn·log(xn)+(1-yn)·log(1-xn),
其中,yn是真实标签,值域为{0,1},xn是模型输出的样本为正的概率,值域为(0,1);
h、重复步骤a-g,直到模型训练完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210475512.8/1.html,转载请声明来源钻瓜专利网。