[发明专利]一种提高老挝语词性标注准确率的方法有效
申请号: | 201811287367.0 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109543151B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 周兰江;王兴金;张建安;周枫 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提高老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。 | ||
搜索关键词: | 一种 提高 老挝 语词 标注 准确率 方法 | ||
【主权项】:
1.一种提高老挝语词性标注准确率的方法,其特征在于:所述方法具体步骤如下:Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,...,SN};其中,SN表示第N个词性;②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,...,OM};其中,OM表示第M个词;③词性的初始概率分布π,π表示词性在句首的概率集合;④观测概率矩阵B={bi(O),1≤i≤N,O∈V},bi(O)=count(O,i)/count(i)表示词O的词性为i的概率,count(O,i)表示统计的观测词集合中词O的词性为i的个数,count(i)表示统计的观测词集合中词的词性为i出现的次数;⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aii=count(j,i)/count(j);其中,count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数,count(j)表示统计的观测词集合中词的词性为j出现的次数;Step2、当为一个句子进行词性标注时,分为两种情况:第一种情况是句子中无未登录词:当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列,至此,词性标注完成;第二种情况是句子中存在未登录词:当第二种情况时,由于存在未登录词,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词的预测词,而预测词在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子替换为带预测词的句子,而带预测词的句子中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811287367.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种庭审笔录的处理方法和装置
- 下一篇:一种序列标注系统及方法