[发明专利]基于组合方法的越南语兼类词消歧方法有效
申请号: | 201610496446.7 | 申请日: | 2016-06-30 |
公开(公告)号: | CN106202035B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 余正涛;刘艳超;郭剑毅;线岩团;严馨;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理技术领域。本发明首先从越南语文本中抽取越南语兼类词字段,构建兼类词字段库,其次对兼类词字段库分别进行最大熵、条件随机场、支持向量机词性歧义消解建模,再把待消歧的兼类词字段测试语料通过已构建的三大统计分析模型进行消歧,综合分析结果,得到兼类词的词性标记。本发明提出的基于组合方法的越南语兼类词消歧方法,对越南语的兼类词实现了有效的消歧,为后续越南语词性标注、词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;解决了对于单一学习器会造成泛化性能不佳的问题。 | ||
搜索关键词: | 基于 组合 方法 越南语 兼类词消歧 | ||
【主权项】:
1.基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支持向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果;所述Step1的具体步骤为:Step1.1、首先利用网络爬虫程序,从互联网上爬取越南语网页语料;Step1.2、把已爬取出的越南语网页语料,经过过滤、去噪音处理,构建出越南语文本级语料,并把越南语文本级语料存放到数据库中;Step1.3、从Step1.2数据库中取出越南语文本级语料,经过人工处理形成越南语句子级语料,使用越南语分词工具对越南语句子级语料进行分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从Step1.3数据库中取出已分词的越南语句子级语料,根据越南语词性标注工具对越南语句子级分词语料进行词性标注,并进行人工校对,形成越南语句子级词性标注语料的语料库,并把越南语句子级词性标注语料的语料库存放到数据库中;Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,根据人工编写抽取越南语兼类词程序,结合越南语兼类词字典,进行抽取越南语的兼类词字段,形成越南语兼类词字段库,并把越南语兼类词字段库的字段存放到数据库中;Step1.6、根据越南语语言和兼类词特点,并对Step1.5数据库中越南语兼类词字段进行分析,选取越南语兼类词消歧特征,包括:词信息特征以及上下文特征、词性信息以及上下文特征、成分特征;所述Step1.5的具体步骤:Step1.5.1、从Step1.4数据库中取出越南语句子级词性标注语料,得到越南语句子级词性标注语料;Step1.5.2、从网站和字典中收集越南语字典,形成越南语字典;Step1.5.3、从Step1.5.2中得到越南语字典,通过人工进行筛选和抽取,得到越南语兼类词字典;Step1.5.4、通过人工编写的抽取兼类词程序,并结合Step1.5.3中的越南语兼类词字典,对Step1.5.1中得到的越南语句子级词性标注语料进行抽取越南语兼类词,得到越南语兼类词字段信息,并把抽取到的越南语兼类词字段信息存放到数据库中;所述Step2的具体步骤为:Step2.1、根据选取的越南语兼类词消歧特征,并结合获取得到的越南语兼类词字段语料,制定最大熵模型中所需要的基本特征模板训练样式语料;Step2.2、用最大熵统计分析方法对Step2.1中训练样式语料进行建模,得到基于最大熵的越南语兼类词消歧模型;所述Step3的具体步骤为:Step3.1、根据选取的越南语兼类词消歧特征,并结合获取得到的越南语兼类词字段语料,制定条件随机场模型中所需要的基本特征模板训练样式语料;Step3.2、用条件随机场统计分析方法对Step3.1中训练样式语料进行建模,得到基于条件随机场的越南语兼类词消歧模型;所述Step4的具体步骤为:Step4.1、根据选取的越南语兼类词消歧特征,并结合获取得到的越南语兼类词字段语料,制定支持向量机模型中所需要的基本特征模板训练样式语料;Step4.2、用支持向量机统计分析方法对Step4.1中训练样式语料进行建模,得到基于支持向量机的越南语兼类词消歧模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610496446.7/,转载请声明来源钻瓜专利网。