[发明专利]一种拉丁壮语向量表示与计算方法在审
申请号: | 202111427305.7 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114091453A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李俊;徐正丽;姜兰兰;黄桂敏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 罗玉荣 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 拉丁 壮语 向量 表示 计算方法 | ||
本发明提供一种拉丁壮语向量表示与计算方法,包括一个由顺序连接的拉丁壮语预处理模块、拉丁壮语语言建模模块、拉丁壮语向量表示归一化模块、拉丁壮语向量表示与计算模块组成的表示与计算模型。一篇由拉丁壮语书写的文本通过该表示与计算模型处理后,最后能够得到该拉丁壮语文本的向量表示。本发明的方法解决了拉丁壮语的向量表示与计算问题,能够用于拉丁壮语的自动化处理与应用。
技术领域
本发明涉及自然语言处理技术、拉丁壮语词向量生成技术,是一种拉丁壮语向量表示与计算方法,本发明的向量表示方法只适合拉丁壮语。
背景技术
现代壮语是以拉丁字母为基本语素单元组合而成的,相比于传统的方块壮语形式,拉丁字母更容易进行计算机处理。由于现代拉丁壮语使用的局限性,多数使用者只能说壮语,懂壮语语义,但是不会书写拉丁壮语,这给拉丁壮语的数字化研究和大批量推广带来诸多不便。本发明提出一种拉丁壮语向量表示与计算方法,该方法通过利用深度学习文本处理技术,对已标注的拉丁壮语语料进行训练和学习,获取拉丁壮语的低维稠密的语义向量表示,并且可以利用所获取的拉丁壮语词语向量表示,计算不同上下文语境中拉丁壮语语义,该拉丁壮语向量表示方法可以广泛应用于拉丁壮语智能化信息处理,拉丁壮语规模化推广与拉丁壮语自主学习。
发明内容
本发明的一种拉丁壮语向量表示与计算方法的总体处理流程如图1所示,包括一个由顺序连接的拉丁壮语预处理模块、拉丁壮语语言建模模块、拉丁壮语向量表示归一化模块、拉丁壮语向量表示与计算模块。
其中的拉丁壮语预处理模块的处理流程是:
第一,输入拉丁壮语的文本语料,并对输入的拉丁壮语文本语料进行字母小写化处理、对壮语文本语料按照标点分句,得到若干句子组成的句子文本序列;
第二,对第一步中输出的句子文本序列按照拉丁壮语空格进行分词、将句子序列分成由一个个独立的拉丁词构成的词序列;
第三,分别输出分词后的词序列在语料库中的顺序编号号码。
其中的拉丁壮语语言建模模块的处理流程是:
第一,设置窗口词语的个数,计算窗口中任意两个拉丁壮语词语共现的次数,并根据窗口中任意两个词语共现的次数构成窗口词语共现矩阵;
第二,设定输出拉丁壮语向量的维数,并初始化拉丁壮语向量的权重矩阵;
第三,将窗口词语共现矩阵输入三层神经网络,通过神经网络的线性隐藏层,同拉丁壮语的权重矩阵进行加权求和计算,并将求和计算的结果通过非线性softmax函数进行分类输出。
其中的拉丁壮语向量表示归一化模块的处理流程是:
第一,将语言建模模块的分类输出结果同已有的监督数据进行比较,并使用交叉熵损失更新权重矩阵的参数;
第二,设定阈值,使神经网络训练过程收敛,获取此时刻隐藏层的权重向量,通过加权计算获取拉丁壮语的向量表示矩阵;
第三,将拉丁壮语表示矩阵的列向量中每一个元素除以该列向量的长度,获得拉丁壮语的向量矩阵的列向量归一化表示。
其中的拉丁壮语向量表示与计算模块的处理流程是:
第一,利用拉丁壮语的归一化向量表示获取任意一个拉丁壮语词语的向量;
第二,利用余弦相似度计算公式计算任意两个拉丁壮语词语之间的语义相似度,相似度的值表示两个词语之间的语义相似性;
第三,计算任意两个句子的余弦相似度,相似度的值代表了两个句子之间的语义相似性。
本发明的定义如下:
1、拉丁壮语分句结构
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111427305.7/2.html,转载请声明来源钻瓜专利网。