[发明专利]基于Transformer-CRF的藏文分词方法有效
申请号: | 202111520289.6 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114330328B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 于永斌;陆瑞军;群诺;头旦才让;唐倩;彭辰辉;王昊 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/0455;G06N3/047;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer crf 藏文 分词 方法 | ||
本发明公开了一种基于Transformer‑CRF的藏文分词方法,该方法包括:输入数据集、数据预处理、音节扩展、构建基于Transformer‑CRF的藏文分词模型、训练并保存模型及其参数以及输入待分词语料,输出分词结果。本发明以当前音节为中心向左向右扩展两个单元,使用unigram和bigram相结合的方法,可以提取到更多的特征向量。同时,本发明克服了传统分词方法中存在的运算速度、准确率低等缺点。另外,基于Transformer‑CRF的藏文分词模型采用并行计算,大大增加了计算效率,而且模型中的自注意力机制的特征抽取能力比LSTM的特征抽取能力要好。
技术领域
本发明属于自然语言处理领域,具体涉及一种基于Transformer-CRF的藏文分词方法。
背景技术
藏文是我国一种历史悠久的民族语言,藏文由音节和音节点构成,按音节拼写。音节间用隔开,词尾用终结。例如中词是由两个音节组成,音节中间由隔开,一个音节相当于汉语中的一个字。藏语其使用范围遍及西藏、青海、甘肃、四川、云南等西部地区以及尼泊尔、不丹、巴基斯坦、印度等国家的部分地区,使用人口多达800万,分布地域广大。因此加强对藏文信息处理的基础研究很有必要。
分词是指将连续的字序列按照一定的规范重新组合成词序列的过程,对于一个输入句子X=[x1,x2,...,xi,...,xn](其中X表示句子、xi为句子中第i个字,i=1,2,…,n,在本发明中,n最大为80),经过编码后得到的向量输入到分词模型中,得到句子中每个字的标签y=(y1,y2,...,yi,...,yn)。(其中yi为句子中第i个字的标签、yi∈{B,M,E,S},起始字标签B,中间字标签M,结束字标签E,单个字标签S)。在藏文信息处理中,只要涉及到句法、语义,就需要以词为单位进行处理,如藏文信息检索、文本校正、机器翻译、文本分类、自动摘要等。因而在藏文信息处理中首先需要解决词的切分问题。
在分词领域中,以前的研究都是把分词问题看作为序列标注的问题,其按照算法分类可分为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。这些方法的最大缺点是需要有大量预先分好词的语料作支撑,训练过程中时空开销极大,而且在效率和精度上远不及深度学习的方法。
近年来,随着深度神经网络的不断发展,基于深度神经网络的分词模型已经成为主流,常用的是循环神经网络(RNN)系列,具有代表性的网络是长短时记忆网(LSTM)以及门控循环单元(GRU)。但是由于RNN的训练是迭代的、串行的,必须要等当前字处理完,才可以处理下一个字,无法进行并行计算,为藏文分词模型在大规模语料上运用带来困难,且计算效率较低。
在2017年,谷歌提出了一种用于seq2seq任务的Transformer模型,它没有RNN循环结构或者卷积神经网络(CNN)的卷积结构,Transformer是一种避免循环的模型结构,它完全依赖于注意力机制对输入输出的全局依赖关系进行建模。相比于RNN模型,Transformer可以进行并行输入且具有更好的特征提取能力。
发明内容
基于上述问题以及Transformer模型的优点,本发明提出了一种基于Transformer-CRF的藏文分词方法,该方法使用Transformer-Encoder作为特征提取器将自然语言序列映射为隐藏层。利用条件随机场(CRF)作为解码器将隐藏层映射为标签序列,该方法可以并行地将字向量输入,计算效率更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111520289.6/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法