[发明专利]中文分词方法及装置在审
申请号: | 201710570808.7 | 申请日: | 2017-07-13 |
公开(公告)号: | CN109255117A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 赵琦 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙;曹杰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种中文分词方法和装置,该方法包括:S1、获取待分词M语句;S2、将M语句中第i个预设长度子句组成第一字符串与训练语料库精确匹配,若成功,获取分词结果进入S3,若失败,进入S4,i初始值为1;S3、将第二字符串作精确匹配,第二字符串是在第一字符串尾部加入排序靠后的j个字符得到的,j初始值为1,若失败,将i值增加预设长度进入S2,若成功,获取分词结果,将j值增加1重复S3;S4、将第一字符串作模糊匹配,获取分词结果,将i值增加预设长度进入S2;S5、若S2至S4任一执行后,M语句中所有字符对应子句均获取到分词结果,终止匹配并合并所有的分词结果。该方法可利用有限语料库进行中文分词。 | ||
搜索关键词: | 分词结果 字符串 中文分词 预设 语句 匹配 方法和装置 训练语料库 字符串尾部 模糊匹配 语料库 失败 分词 排序 成功 合并 重复 | ||
【主权项】:
1.一种中文分词方法,其特征在于,包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710570808.7/,转载请声明来源钻瓜专利网。