[发明专利]一种基于局部词表的藏文分词评测集构建方法在审
申请号: | 202211585580.6 | 申请日: | 2022-12-09 |
公开(公告)号: | CN116245096A | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 才让卓玛 | 申请(专利权)人: | 西南民族大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/31;G06F18/214 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 词表 藏文 分词 评测 构建 方法 | ||
1.一种基于局部词表的藏文分词评测集构建方法,其特征在于:包括以下步骤:
第一步,基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将识别的紧缩词添加到局部词表中;
第二步,以藏文评测句的字序列和藏文评测句局部词表建立字索引词表,并对字索引词表以词长降序排列;
第三步,以藏文评测句的字序列和字索引词表构建藏文评测句评测答案。
2.根据权利要求1所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:基于藏文评测句局部词表识别藏文评测句中的紧缩词的方法为:
(1)求藏文评测句局部词表中最长的词所含的字数len;
(2)求藏文评测句中所有拟紧缩词w的位置,依次读取每个拟紧缩词w前的包含len个字的字符串s,对每个字符串s分别按(3)识别紧缩词;
(3)判断字符串s是否为空;若字符串s为空,则拟紧缩词w不是紧缩词,紧缩词识别结束,否则按(4)继续识别紧缩词;
(4)判断字符串s是否在藏文评测句局部词表中;若字符串s在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,紧缩词识别结束,否则按(5)继续识别紧缩词;
(5)判断字符串是否在藏文评测句局部词表中;若字符串在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,否则删除字符串s的首字,转(3)继续判断。
3.根据权利要求2所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:藏文评测句局部词表中最长的词所含的字数len的计算公式为:
len=maxi{||wi|||wi∈WordList}
式中WordList表示藏文评测句局部词表,wi表示局部词表WordList中的词,||wi||表示词wi中所含字数。
4.根据权利要求1所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:以藏文评测句的字序列和藏文评测句局部词表建立字索引词表的方法为:
(A)判断藏文评测句是否为空;若藏文评测句为空,则字索引词表为空,字索引词表建立完毕,否则按(B)继续建立字索引词表;
(B)置n=1,n表示藏文评测句中当前字的位置;
(C)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表;
(D)n=n+1;
(E)判断藏文评测句的第n个字是否为空;若藏文评测句的第n个字为空,则字索引词表建立完毕,否则按(F)继续建立字索引词表;
(F)判断以藏文评测句第n个字为索引键的索引词表是否存在;若以第n个字为索引键的索引词表存在,则转(D)继续建立字索引词表,否则按(G)继续建立字索引词表;
(G)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表,转(D)继续建立字索引词表。
5.根据权利要求1所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:以藏文评测句的字序列和字索引词表构建藏文评测句评测答案的方法为:
(a)判断藏文评测句是否为空;若藏文评测句为空,则藏文评测句评测答案为空,藏文评测句评测答案构建完毕,否则按(b)继续构建藏文评测句评测答案;
(b)将藏文评测句的首字设置为当前索引键,从字索引词表中求出当前索引键对应的所有索引值,并以藏文评测句首子串的索引值分别构建藏文评测句评测答案;
(c)判断藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字是否为空;若藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字为空,则该藏文评测句评测答案构建完毕,否则设置该直接后继字为新的当前索引键,按(d)继续构建字索引词表;
(d)判断新的当前索引键对应的索引值是否为空;若新的当前索引键对应的索引值为空,则将藏文评测句中与该索引键对应字的直接后继字设置为新的当前索引键,按(e)继续构建藏文评测句评测答案,否则按(e)继续构建藏文评测句评测答案;
(e)从索引词表中求出当前索引键对应的所有索引值,并以藏文评测句中当前索引键对应位置开始的索引值依次追加到每个藏文评测句评测答案尾部,转到(c)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南民族大学,未经西南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211585580.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:打捆机头360度浮动机构
- 下一篇:一种柔顺消毒一体化消毒剂