[发明专利]一种拉丁壮语向量表示与计算方法在审
申请号: | 202111427305.7 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114091453A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李俊;徐正丽;姜兰兰;黄桂敏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 罗玉荣 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 拉丁 壮语 向量 表示 计算方法 | ||
1.一种拉丁壮语向量表示与计算方法,其特征在于:包括一个由顺序连接的拉丁壮语预处理模块、拉丁壮语语言建模模块、拉丁壮语向量表示归一化模块、拉丁壮语向量表示与计算模块组成的表示与计算模型,其表示与计算方法包括如下步骤:
(1)拉丁壮语预处理模块输入拉丁壮语的文本语料,并对输入的拉丁壮语文本语料进行字母小写化处理、对壮语文本语料按照标点分句,得到若干句子组成的句子文本序列;
对输出的句子文本序列按照拉丁壮语空格进行分词、将句子序列分成由一个个独立的拉丁词构成的词序列;
分别输出分词后的词序列在语料库中的顺序编号号码;
(2)拉丁壮语语言建模模块输入设置的窗口词语的个数,计算窗口中任意两个拉丁壮语词语共现的次数,并根据窗口中任意两个词语共现的次数构成窗口词语共现矩阵;
设定输出拉丁壮语向量的维数,并初始化拉丁壮语向量的权重矩阵;将窗口词语共现矩阵输入三层神经网络,通过神经网络的线性隐藏层,同拉丁壮语的权重矩阵进行加权求和计算,并将求和计算的结果通过非线性softmax函数进行分类输出;
(3)拉丁壮语向量表示归一化模块输入语言建模模块的分类输出结果,同已有的监督数据进行比较,并使用交叉熵损失更新权重矩阵的参数;
设定阈值,使神经网络训练过程收敛,获取此时刻隐藏层的权重向量,通过加权计算获取拉丁壮语的向量表示矩阵;
计算拉丁壮语表示矩阵的列向量中每一个元素除以该列向量的长度,获得拉丁壮语的向量矩阵的列向量归一化表示;
(4)拉丁壮语向量表示与计算模块输入拉丁壮语的归一化向量表示获取任意一个拉丁壮语词语的向量;利用余弦相似度计算公式计算任意两个拉丁壮语词语之间的语义相似度,相似度的值表示两个词语之间的语义相似性;
计算任意两个句子的余弦相似度,相似度的值代表了两个句子之间的语义相似性。
2.根据权利要求1所述的拉丁壮语向量表示与计算方法,其特征在于:所述的拉丁壮语预处理模块处理步骤如下:
P201开始;
P202读入拉丁壮语语料;
P203对拉丁壮语语料进行字母小写化处理;
P204对拉丁语料进行分句,生成句子序列;
P205对分句后的句子序列按照空格分词;
P206输出分词后的拉丁词语列表;
P207结束。
3.根据权利要求1所述的拉丁壮语向量表示与计算方法,其特征在于:所述的拉丁壮语语言建模模块的计算公式定义如下:
(1)窗口中两个拉丁壮语词语共同出现次数计算公式
为了获取某两个拉丁壮语词语之间的语义关联性,使用任意两个拉丁壮语词语在语料中共同出现的次数来计算,窗口词语数量为5时,计算公式如下:
(2)窗口中共现矩阵计算公式
窗口词语数量为5时,词语i同其前后两个词语之间的共现矩阵计算公式如下:
公式(2)中表示词语i同其后面一个词语i+1共现的次数。
4.根据权利要求2所述的拉丁壮语向量表示与计算方法,其特征在于:所述的拉丁壮语语言建模模块处理步骤如下:
P301开始;
P302设置窗口词的个数N=5;
P303使用公式(1)统计并计算出窗口正中间词语i同其前后两个词语的共现次数;
P304使用公式(2)将P303的共现次数构建共现矩阵;
P305设定输出拉丁壮语维度D=100;
P306初始化权重矩阵T;
P307将共现矩阵输入到三层神经网络;
P308获取神经网络隐藏层输出向量H;
P309计算拉丁壮语向量表示W=T×H;
P310使用softmax函数输出拉丁壮语词向量表示;
P311使用随机梯度下降更新权重T,若没有达到阈值,执行P306,若达到阈值,则执行P312;
P312结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111427305.7/1.html,转载请声明来源钻瓜专利网。