[发明专利]一种文本风格的自动化评判方法有效

专利信息
申请号: 202210475512.8 申请日: 2022-04-29
公开(公告)号: CN114861629B 公开(公告)日: 2023-04-04
发明(设计)人: 陈峥;陈建树 申请(专利权)人: 电子科技大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F16/31;G06F16/35;G06N3/084
代理公司: 西安智萃知识产权代理有限公司 61221 代理人: 许双田
地址: 610000 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 风格 自动化 评判 方法
【说明书】:

发明涉及一种文本风格的自动化评判方法,属于人工智能技术领域,通过特定的风格标签提取、基于深度学习模型训练调优等进行文本风格判断的流程,得到自动化文本风格的判别模型,并将其部署在文本判别系统中,增加文本过筛的效率,在新的标签加入时无需对模型进行重新训练,且更符合人类理解,具有很好的可扩展性。

技术领域

本发明涉及人工智能技术领域,具体涉及一种文本风格的自动化评判方法。

背景技术

目前在一些自动化文本生成系统中,需要获得满足高层次风格约束的文本,例如需要文本实现某种情感的抒发。一般情况下,如今设备的算力能够在短时间内自动化地生成大量目标文本,但是对于文本的筛选与评估,几乎没有自动化的方法。常见的情况是需要人力进行筛选,一方面,大量的文本会使得人工筛选员眼花缭乱,一定的时间内能够进行的筛选数量极其有限,导致工作效率低下;另一方面,体力的消耗和精神的损耗、甚至心情的好坏会极大影响人工筛选员的主观判断,进而影响对于结果的判定。因此,人工筛选具有两大缺点: 1、人力与时间成本高;2、评判结果受主观因素影响较大。

现有技术中也有少量利用机器进行文本分类的自动化筛选与评估的方法,主要方法为,提前设定好K个标签,并将文本分类任务抽象为一个K维度的分类模型,每一个样本输入到模型,得到一个K维度的向量,每个维度代表对应标签为真的概率。这样的做法存在着两个弊端:1、当模型需要判定多个标签的时候,互斥的特性导致其余标签的概率会受到最大概率标签的影响,且当所有标签都为假的时候,仍然会给出最大概率标签;2、当需要加入新的标签时,需要重新构造数据并重新训练模型,可拓展性有限、效率低。

发明内容

为解决上述技术问题,本发明提供一种文本风格的自动化评判方法,目的是为了降低人工评估的繁重工作量和人力时间成本,提高筛选效率的同时降低误判率,提高分类模型的可拓展性。

为了实现以上目的,本发明提供一种文本风格的自动化评判方法,该方法包括以下步骤:

步骤1)、使用句法分析工具HanLP对已有文本点评数据进行句法解析,得到解析的数据结果;步骤2)、单条数据风格标签提取:

a)自定义Node节点,使用自底向上的方法递归构造多叉树,将解析得到的数据结果还原为短语结构树的树状结构,使用一个哈希表A记录每个Node节点的短语性质与单词内容;

b)以“节点类型为VP且包含单词个数为3-5个”作为筛选规则进行标签提取,根据该筛选规则对哈希表A的数据节点进行过滤,得到符合条件的结果,并将该符合条件的结果存储在另一个哈希表B中;

步骤3)、全量风格标签集合构造:将数据库中的每条数据都进行步骤2)的操作,得到最终的哈希表B,根据短语的频次进行倒序排序,取前K个短语作为模型训练数据的风格标签,其中,风格标签要使用最长公共子串算法进行判重,不能使用文本相似度很高的两个标签,所述模型为ALBERT预训练模型;

步骤4)、模型训练数据构造:使用负采样的方式构造二分类数据集,保持正负样本比例均衡,将其中一个数据正样本标签为1,然后随机选择一个没有出现在点评中的风格标签,使用相同拼接方式构造一个负样本,将其标签为0;

步骤5)、深度学习模型训练调优,采用深度学习模型训练框架对ALBERT预训练模型进行微调,并在验证集上进行性能验证。

优选的,其中步骤5)具体包括以下步骤:

a、将构造的数据集中的序列打乱并小批量依次输入ALBERT预训练模型;

b、ALBERT预训练模型将输入进行预处理操作,将其转化为one-hot向量并进行嵌入操作,然后再嵌入位置信息和片段信息,其中标签文本的片段id为0,作文文本的片段id为1;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210475512.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top