[发明专利]一种泰语文本切词方法及装置有效
申请号: | 201210074880.8 | 申请日: | 2012-03-20 |
公开(公告)号: | CN103324607B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 何径舟;张超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 泰语 文本 方法 装置 | ||
1.一种泰语文本切词方法,其特征在于,包括:
利用词典匹配算法,对待切分文本串进行切分;
在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
利用匹配成功部分与合并得到的音节,构成第一切词结果。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
以音节为单位,对匹配成功部分进行音节切分;
根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
3.根据权利要求2所述的方法,其特征在于,所述以音节为单位,对匹配成功部分进行音节切分,包括:
根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。
4.根据权利要求3所述的方法,其特征在于,所述音节切分信息的获得方法,包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
根据字符训练语料,训练得到音节切分模型;
利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。
5.根据权利要求4所述的方法,其特征在于,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
6.根据权利要求4所述的方法,其特征在于,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
7.根据权利要求2所述的方法,其特征在于,所述基于音节的泰语切词模型的建立方法,包括:
根据泰语音节在泰语单词中的位置,对泰语语料进行标注,得到音节训练语料;
根据音节训练语料,训练得到基于音节的泰语切词模型。
8.根据权利要求7所述的方法,其特征在于,还包括:
利用读音泛化算法,对所述泰语音节进行泛化,并在模型中添加读音泛化标识。
9.根据权利要求7或8所述的方法,其特征在于,所述泰语音节在泰语句子中的位置,包括:
位于开头、位于中间、位于结尾,和单独成词。
10.根据权利要求2所述的方法,其特征在于,还包括:
对第二切词结果中非词典词的出现频率进行统计,如果超过预设的阈值,则将该非词典词录入词典。
11.一种泰语文本切词装置,其特征在于,包括:
词典切分单元,用于利用词典匹配算法,对待切分文本串进行切分;
音节合并单元,用于在存在匹配不成功部分的情况下,利用预置的音节合并模板,将匹配不成功部分的字符合并为音节;
第一输出单元,用于利用匹配成功部分与合并得到的音节,构成第一切词结果。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:
音节切分单元,用于以音节为单位,对匹配成功部分进行音节切分;
模型切词单元,用于根据预置的基于音节的泰语切词模型,对音节切分结果和合并得到的音节进行组合,得到第二切词结果。
13.根据权利要求12所述的方法装置,其特征在于,所述音节切分单元,具体用于:
根据预置的词典词音节切分信息,对匹配成功的词典词进行音节切分。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
音节切分信息获得单元,用于获得词典词的音节切分信息,该单元包括:
字符标注子单元,用于根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
音节切分模型训练子单元,用于根据字符训练语料,训练得到音节切分模型;
音节切分子单元,利用所述音节切分模型对词典词进行切分,得到词典词的音节切分信息。
15.根据权利要求14所述的装置,其特征在于,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
16.根据权利要求14所述的装置,其特征在于,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210074880.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:新型线材整理板
- 下一篇:一种基于x86体系结构处理器的VME单板计算机装置