[发明专利]基于Transformer-CRF的藏文分词方法有效

专利信息
申请号: 202111520289.6 申请日: 2021-12-13
公开(公告)号: CN114330328B 公开(公告)日: 2023-10-10
发明(设计)人: 于永斌;陆瑞军;群诺;头旦才让;唐倩;彭辰辉;王昊 申请(专利权)人: 电子科技大学
主分类号: G06F40/284 分类号: G06F40/284;G06N3/0455;G06N3/047;G06N3/08
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 transformer crf 藏文 分词 方法
【说明书】:

发明公开了一种基于Transformer‑CRF的藏文分词方法,该方法包括:输入数据集、数据预处理、音节扩展、构建基于Transformer‑CRF的藏文分词模型、训练并保存模型及其参数以及输入待分词语料,输出分词结果。本发明以当前音节为中心向左向右扩展两个单元,使用unigram和bigram相结合的方法,可以提取到更多的特征向量。同时,本发明克服了传统分词方法中存在的运算速度、准确率低等缺点。另外,基于Transformer‑CRF的藏文分词模型采用并行计算,大大增加了计算效率,而且模型中的自注意力机制的特征抽取能力比LSTM的特征抽取能力要好。

技术领域

本发明属于自然语言处理领域,具体涉及一种基于Transformer-CRF的藏文分词方法。

背景技术

藏文是我国一种历史悠久的民族语言,藏文由音节和音节点构成,按音节拼写。音节间用隔开,词尾用终结。例如中词是由两个音节组成,音节中间由隔开,一个音节相当于汉语中的一个字。藏语其使用范围遍及西藏、青海、甘肃、四川、云南等西部地区以及尼泊尔、不丹、巴基斯坦、印度等国家的部分地区,使用人口多达800万,分布地域广大。因此加强对藏文信息处理的基础研究很有必要。

分词是指将连续的字序列按照一定的规范重新组合成词序列的过程,对于一个输入句子X=[x1,x2,...,xi,...,xn](其中X表示句子、xi为句子中第i个字,i=1,2,…,n,在本发明中,n最大为80),经过编码后得到的向量输入到分词模型中,得到句子中每个字的标签y=(y1,y2,...,yi,...,yn)。(其中yi为句子中第i个字的标签、yi∈{B,M,E,S},起始字标签B,中间字标签M,结束字标签E,单个字标签S)。在藏文信息处理中,只要涉及到句法、语义,就需要以词为单位进行处理,如藏文信息检索、文本校正、机器翻译、文本分类、自动摘要等。因而在藏文信息处理中首先需要解决词的切分问题。

在分词领域中,以前的研究都是把分词问题看作为序列标注的问题,其按照算法分类可分为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。这些方法的最大缺点是需要有大量预先分好词的语料作支撑,训练过程中时空开销极大,而且在效率和精度上远不及深度学习的方法。

近年来,随着深度神经网络的不断发展,基于深度神经网络的分词模型已经成为主流,常用的是循环神经网络(RNN)系列,具有代表性的网络是长短时记忆网(LSTM)以及门控循环单元(GRU)。但是由于RNN的训练是迭代的、串行的,必须要等当前字处理完,才可以处理下一个字,无法进行并行计算,为藏文分词模型在大规模语料上运用带来困难,且计算效率较低。

在2017年,谷歌提出了一种用于seq2seq任务的Transformer模型,它没有RNN循环结构或者卷积神经网络(CNN)的卷积结构,Transformer是一种避免循环的模型结构,它完全依赖于注意力机制对输入输出的全局依赖关系进行建模。相比于RNN模型,Transformer可以进行并行输入且具有更好的特征提取能力。

发明内容

基于上述问题以及Transformer模型的优点,本发明提出了一种基于Transformer-CRF的藏文分词方法,该方法使用Transformer-Encoder作为特征提取器将自然语言序列映射为隐藏层。利用条件随机场(CRF)作为解码器将隐藏层映射为标签序列,该方法可以并行地将字向量输入,计算效率更高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111520289.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top