[发明专利]一种中文分词纠错方法、离线训练装置及在线处理装置有效
申请号: | 201510526686.2 | 申请日: | 2015-08-25 |
公开(公告)号: | CN106484670B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 吴尉林;许欢庆;郭永福;陈沛 | 申请(专利权)人: | 北京中搜云商网络技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文分词纠错方法、离线训练装置及在线处理装置,方法包括:从语料库上自动训练得到分词纠错器,比较当前分词结果集与正确的分词结果集,对错误的分词结果进行统计,自动总结出纠错规则,并对每条纠错规则计算统计指标,过滤不可靠的纠错规则,这样不停迭代计算,不断发现新的纠错规则从而构建纠错规则库,再根据纠错规则库对在线句子进行分词纠错处理,本发明提供一种中文分词纠错方法、离线训练装置及在线处理装置能够通过构建纠错规则库有效的提高中文分词的精准性,同时能够不断适应新词出现的需求。 | ||
搜索关键词: | 一种 中文 分词 纠错 方法 离线 训练 装置 在线 处理 | ||
【主权项】:
1.一种中文分词纠错方法,其特征在于,所述方法包括:(1)给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串;(2)采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;(3)将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;(4)统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;(5)分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中,其中,所述使用频次的阈值至少大于5,正确率和效用值的阈值取0.5至1之间;(6)根据过滤后的纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1;(7)对所述更新后的分词结果集Ci+1迭代执行步骤(3)至步骤(6),直至所述更新后的分词结果集Ci+1中不存在纠错规则,训练完成,获取最终的纠错规则库R;(8)在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;(9)根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n‑1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;(10)选择效用值最高的匹配后的纠错规则对待处理句子中字进行纠错处理;(11)对纠错处理后的句子中字的BMES标签进行合法性检查。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜云商网络技术有限公司,未经北京中搜云商网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510526686.2/,转载请声明来源钻瓜专利网。