[发明专利]一种基于隐马尔可夫模型的词性标注方法在审
申请号: | 202010447611.6 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111814464A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 张羽昂;梁寒杲;王景璟;任勇 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62 |
代理公司: | 北京翔石知识产权代理事务所(普通合伙) 11816 | 代理人: | 李勇 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐马尔可夫 模型 词性 标注 方法 | ||
本发明提供一种基于隐马尔可夫模型的词性标注方法,包括:基于HMM模型的初步描述,在所述HMM模型上的Viterbi算法给出所述Viterbi算法的具体代码实现,随机变量序列X1,X2,...,Xn满足P(Xn|X1,X2,...,Xn‑1)=P(Xn|Xn‑1),利用已知的信息,通过求解Xn的转移概率矩阵方法获取随机变量序列Xn的性质,进而解决问题;以HMM链作为基础理论,基于Viterbi算法的词性标注的过程为:(1)确定到达下一个状态的最可能路径,并记录其状态;(2)确定系统完成时最可能的隐藏状态;(3)所述最可能的状态路径在整个网格回溯,回溯完成时生成观察序列的最可能的隐藏状态序列,在词性标注、语音识别等多个领域都有很广泛的应用。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于隐马尔可夫模型的词性标注方法。
背景技术
现代社会,随着信息技术的快速发展,词性标注成为了自然语言处理中一个具有重要意义的研究方向,它作为自然语言处理的一项基础性工作,是后续语法分析、语音识别、文本分类、机器翻译等任务的必要准备。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为至少部分地解决上述技术问题,本发明提供了一种基于隐马尔可夫模型的词性标注方法,包括:
首先,进行对HMM(隐马尔科夫)模型初步的描述;
对随机变量序列X1,X2,...,Xn满足:P(Xn|X1,X2,...,Xn-1)=P(Xn|Xn-1),利用已知信息,通过求解Xn的转移概率矩阵方法获取随机变量序列Xn的性质,从而解决问题。
其次,HMM模型上的Viterbi算法;
(1)根据初始状态分布π生成初始状态;
(2)t=1;
(3)根据B和状态it生成Ot;
(4)根据A和it生成it+1;
(5)t=t+1,如果t<T则跳回(3),否则结束。
其中,所述T表示为观测序列长度,所述N表示为隐藏状态数,所述A=aij,aij=P(qjat t+1|qi at t),所述B=bj(k),bj(k)=P(vk at t|qj at t),所述π=πi,πi=P(qi at t=1)。
通过所述五个步骤生成隐马尔科夫链以及观测序列0=01,02,...,0T。
进一步地,基于Viterbi算法的词性标注;
(1)确定到达下一个状态的最可能路径,并记录其状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010447611.6/2.html,转载请声明来源钻瓜专利网。