[发明专利]基于编辑对齐算法的非自回归解码越南语文本正则化方法在审

专利信息
申请号: 202310562199.6 申请日: 2023-05-18
公开(公告)号: CN116611428A 公开(公告)日: 2023-08-18
发明(设计)人: 赖华;蒋铭;王琳钦 申请(专利权)人: 昆明理工大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/58;G06F40/189;G06F18/21;G06F18/214;G06N3/045;G06N3/0455;G06N3/0464;G06N3/082
代理公司: 昆明隆合知识产权代理事务所(普通合伙) 53220 代理人: 何娇
地址: 650500 云南*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 编辑 对齐 算法 回归 解码 越南语 文本 正则 方法
【权利要求书】:

1.基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述方法的具体步骤为:

Step1、预处理:从越南语的各类新闻和媒体网站爬取了文本语料,对文本语料进行修正处理,利用标注方式来扩展越南语数据集;

Step2、预训练:改进基于编辑对齐的匹配算法,检测获取原始序列中非标准词的编辑距离;同时,使用扩充好的标注数据对文本正则化模型中的指示器进行预训练,计算出原序列和目标序列之间的编辑对齐向量;

Step3、解码和微调:在步骤Step2的基础上,使用非自回归架构对预训练模型进行微调,修改指示器中编辑对齐向量的位置向量,实现原始序列到目标序列的长度调整,进而使得文本正则化模型的预测只包括非标准词对应的正则化词;

Step4、后处理:在步骤Step3的基础上,将文本正则化模型预测出的非标准词对应的正则化词插入到原始序列的不可变词中,得到完整的目标预测序列。

2.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step1的具体步骤如下:

Step1.1、对于爬取得到的越南语原始文本,删除多余的空格字符、ASCII编码、表情符号,HTML实体以及不可读的单词;

Step1.2、使用基于正则表达式的标记器来根据标点符号将大长度的句子分割成字符长度在20-150之间的句子,然后将所得到的所有文本语料进行修正工作;

Step1.3、最后,将处理过的文本嵌入到向量空间中作为未标注的数据集,结合越南语的文本正则化特点对已得到的数据集进行标注工作。

3.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step1.3中包括:

对原始文本即需要正则化的文本序列和目标文本即正则化后的文本序列的非标准词向量进行标注,对越南语文本正则化文本标注规范如下:文本序列中的需要正则化的字符使用‘_’来标记,每次标记单个词向量,即采用单词粒度的越南语文本正则化标签分割的方式标记数据;若一个句子中含有多个需要正则化的词,按非标准词的数量将其扩充为多个序列并分别进行标注。

4.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step2中,改进了原FastCorret模型中的编辑对齐算法,通过整体匹配原始序列与目标序列中的相同词向量实现序列对齐,基于规则提取出原始序列中替换词和插入词的位置坐标,使用‘-1’表示替换,‘-2’表示插入,计算出新的编辑对齐向量,使得模型能够更加精准的识别到特征向量的精准变化。

5.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step3中,在形成的预训练模型基础上,通过修改指示器中的编辑对齐向量的位置向量,将所有未更改的标记向量‘1’替换为删除的标记向量‘0’;同时,重新构建了解码阶段的目标集词典,通过减小预测词候选集的大小进一步降低模型的预测难度。

6.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step3中,在进行原始序列到目标序列的长度调整时包括如下内容:

源句子与目标句子之间的编辑距离通过分析编辑距离中的插入、删除和替换操作,获得经过编辑后对应于每个源标记的目标标记数量;采用了非自回归编码器到解码器结构和指示器来解决编码器和解码器之间长度不匹配的问题,使用获得的目标标记数量来训练指示器,以预测更正后每个源标记的长度,并调整每个源标记,将调整后的源标记送到解码器中进行并行生成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310562199.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top