[发明专利]一种基于字符提取老挝语词特征的方法在审
申请号: | 201910520531.6 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110347826A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 周兰江;唐文;张建安 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符向量 字符提取 词向量 老挝语 登录 机器学习技术 卷积神经网络 自然语言处理 模型向量 形态结构 传统的 语料 稀疏 应用 研究 | ||
本发明涉及一种基于字符提取老挝语词特征的方法,属于自然语言处理和机器学习技术领域。由于老挝语料少,老挝语形态结构复杂,导致词稀疏,未登录词多。一般传统的NLP技术是基于词或词跟字符的结合构成输入模型向量。应用在老挝语中,存在词特征难以提取,无未登录词向量的问题。为了解决这些问题,本文提出基于字符向量,利用卷积神经网络提取字符向量的方法。基于字符向量的好处是不需要使用预训练好的词向量等信息。本文可以有效的提取老挝语词特征,因此本发明具有一定的研究意义。
技术领域
本发明涉及一种基于字符提取老挝语词特征的方法,属于自然语言处理和机器学习技术领域。
背景技术
词特征的提取是很多NLP任务的预处理步骤,它是为后续更重要的工作做准备,比如信息提取、文本分类、数据挖掘等。特征选取的方式有3种:(I)用变换或者映射的方法把原始的特征提取为比较少的新特征;(2)根据专家的知识和经验直接挑选出一些最有影响的特征;(3)用数学的方法进行提取,找出最具分类信息的特征。随着人工智能等学科的发展,词特征提取将向着数字化、智能化、语义化的方向深入发展。但现有技术中并没有通过深度学习来提取老挝语词特征的方法。
发明内容
本发明要解决的技术问题是提供一种基于字符提取老挝语词特征的方法,采用多个不同卷积核的卷积神经网络模型。
本发明采用的技术方案是:一种基于字符提取老挝语词特征的方法,包括如下步骤:
Step1、建立老挝语字符向量矩阵
为了实现Char-CNN,首先要做的就是确定老挝字符。老挝语是一种拼音文字,由音素组成音节,配上声调符号所构成。音素分为元音和辅音。元音共有28个,分为单元音、复合元音、特殊元音;辅音共有33个,分为高辅音、中辅音、低辅音。声调由四种符号组成。在老挝语中共有65个字符。字符表示如下:这65个字符相当于中文中的单个拼音,各自没有单独的中文含义。
由于老挝字符共有65个,所以建立的老挝语字符向量矩阵的行为65,定义列为60,所以老挝语字符向量矩阵大小为65*60。通过随机初始化对65个字符建立字符向量矩阵。
Step2、构建词向量矩阵
构建单个老挝词的词向量矩阵,首先在建立好的老挝语字符向量矩阵中分别找到这个老挝词包括的n个字符向量,然后将这个词的n个字符向量拼接为一个大小为n*60的词向量矩阵。
例如,需要构建(中文含义为老挝语)词的词向量矩阵,首先在建立好的老挝语字符向量矩阵中分别找到的字符向量,然后将这个词的7个字符向量拼接为一个大小为7*60的词向量矩阵。
Step3、卷积神经网络模型的构建
使用的卷积神经网络模型由6个卷积层和6个池化层组成,池化层在卷积层后面;
Step3.1、卷积层
使用多个不同尺寸的卷积核进行卷积操作,这样做的好处是能更好的提取字符之间的特征关系。小尺寸的卷积核可能只能提取一些低级的特征如边缘、线条和角等层级,大尺寸的卷积核能提取更加复杂的特征。通过卷积层就可以得到词向量矩阵的特征图。
Step3.2、池化层
池化的方式采用“MAX POOLING”,即只取对应位置的最大值,而其他的值直接被舍弃掉。池化层一方面减少了参数起到了降维的作用,降低了计算的复杂度,另一方面提高了特征提取的准确性,具有一定程度上的平移和失真不变性。
Step4、提取特征值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520531.6/2.html,转载请声明来源钻瓜专利网。