[发明专利]一种基于局部词表的藏文分词评测集构建方法在审

专利信息
申请号: 202211585580.6 申请日: 2022-12-09
公开(公告)号: CN116245096A 公开(公告)日: 2023-06-09
发明(设计)人: 才让卓玛 申请(专利权)人: 西南民族大学
主分类号: G06F40/279 分类号: G06F40/279;G06F16/31;G06F18/214
代理公司: 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 代理人: 何健雄
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 词表 藏文 分词 评测 构建 方法
【说明书】:

发明属于藏语自然语言处理技术领域,涉及一种基于局部词表的藏文分词评测集构建方法,该方法在人工或借助词典建立的评测集的基础上,首先基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将紧缩词添加到藏文评测句局部词表中,然后依据藏文评测句的字序列和局部词表自动建立字索引词表,之后根据藏文评测句的字序列和字索引词表构建藏文评测句的所有不同粒度下的评测答案,供藏文分词评测,解决了因切分粒度问题存在评测不公平的问题。

技术领域

本发明属于藏语自然语言处理技术领域,尤其涉及一种基于局部词表的藏文分词评测集构建方法。

背景技术

分词是自然语言处理领域最基本的任务之一,其目标是将组成文本的字序列切分为词序列。自20世纪80年代以来,分词成为自然语言处理的研究热点,也是自然语言处理的一项基础性研究工作。虽然在学者们的不断努力下,提出了多种分词方法,分词技术得到了长足发展。但由于语言的复杂性,分词问题至今尚未完全解决,一直处于发展阶段。

分词评测是促进分词技术发展的一种有效手段,分词评测时先根据评测方提供的训练集训练系统,然后用训练得到的分词系统对评测方提供的评测集进行切分,最后按照评测集的评测答案及评测算法获得评测分,以评测得分评价分词系统的性能。为了促进汉文分词技术的发展,自1995年开始在国家863、973的支持下,开始了汉文分词评测技术研究,陆续举办了国内汉文分词评测会。评测遵照统一分词标准的思路,评测组织者不公布词表和分词语料,参评系统输出的分词结果允许有一定的“柔性”。即分词结果尽管与评测答案不同,如果符合“结合紧密,使用稳定”的规范条款则认为正确。2003年SIGHAN(国际计算语言学会(ACL)中文处理专业委员会)在日本札幌举办了首届国际汉文分词评测会Bakeoff。Bakeoff采用不同于国内863、973的分词评测方案,先在网上公布了四种不同标准的训练集,之后公布与这四种标准对应的评测集,参评单位可以在这些数据集中任选一种或多种来考评自己的分词系统。在首届Bakeoff的基础上,从2005年起陆续举办了汉文分词评测会,评测扩充了命名实体评测、人名消歧、词性标注评测、句法分析、词义归纳和专业领域分词评测、微博领域分词等项目,充分展示了汉文分词研究领域的重要发展和新动向。

为了促进少数民族语言分词技术的发展,2017年和2021年由中国中文信息学会民族语言文字信息处理专委会和计算语言学专委会共同举办了“少数民族语言分词技术评测”活动(以下简称MLWS2017和MLWS2021),评测分词的语种包括蒙古文、藏文、维吾尔文。MLWS2017和MLWS2021评测采用了开放测试,评测组织方先提供了分词训练集,参评单位用此训练集训练得到参评分词系统,之后评测组织者提供评测集,参评单位用参评的分词系统将评测集切分并上报给评测组织者,组织者通过比对上报的评测集切分结果和评测集评测答案评价分词系统的性能。

由于语料资源和技术条件的制约,MLWS2017和MLWS2021藏文分词评测存在一些不足,最主要的问题是训练集和评测集的评测答案中分词粒度不统一。虽然我国于2018年制定了《信息处理用藏文分词规范》国家标准,但由于标准将藏文分词单位定义为“不仅限于语法词,也包含信息处理所需的结合紧密、使用稳定的词组”,“结合紧密”和“使用稳定”的分词标准见仁见智,无法做到统一。不论人工还是计算机按照其标准构建分词语料库都有一定的困难,这对分词评测带来了极大的困难。再者,目前使用的藏文分词语料库基本上是在国家标准发布前各研究单位以各自的分词规范建立,导致现阶段使用的藏文分词语料切分标准不统一,这种现状也是藏文分词评测中遇到的一个困难。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南民族大学,未经西南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211585580.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top