[发明专利]一种基于种子的错别字混淆集生成方法有效
| 申请号: | 201310435002.9 | 申请日: | 2013-09-23 |
| 公开(公告)号: | CN104462054B | 公开(公告)日: | 2017-03-22 |
| 发明(设计)人: | 刘亮亮;符建辉;施恒利;王石 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 南京知识律师事务所32207 | 代理人: | 汪旭东 |
| 地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 种子 错别字 混淆 生成 方法 | ||
技术领域
本发明涉及计算机领域中的自然语言处理,特别是利用基于种子和错别字图的方法来自动建立错别字混淆集,有效的降低人工量,生成的错别字混淆集有效的应用于汉语文本自动校对系统中。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分,然而文本错别字也越来越多,这给校对工作带来了很大的挑战。传统的人工校对效率低、强度大、周期长显然不能满足文本校对的需求。因此,需要研究文本自动校对技术,而汉语文本自动校对中错别字混淆集是一种非常重要的资源,它的合理性和完备性是文本自动校对技术的有效性的一个重要因素。
由于汉语计算机文本是通过音码输入法(如搜狗拼音输入法)和形码输入法(比如五笔输入法),因此音相似和形相似是汉字错别字的主要特征,如果错别字混淆集如果只是通过音相似算法或形相似算法生成,会生成出很多非常不合理的混淆集,会导致自动校对系统非常高的误报率。如果完全通过人工去过滤,由于人工的主观性,也会得到一些不合理的混淆集及漏掉合理的混淆集,并且工作量非常巨大。因此本案中研究一种方法,根据种子错别字混淆集自动发现错别字的规律,通过算法来自动添加和验证。
在本方法中,需要解决以下问题:
(1)根据错别字种子,建立种子错别字混淆集图。错别字混淆集图能有效的反映错别字混淆集中的关系。
(2)通过对错别字图的分析,定义一些统计量来刻画错别字,利用这些定义的统计量和规则来对错别字关系进行自动添加;
(3)对自动添加的错别字进行验证,如果通过验证,则加入到错别字混淆集中,如果没有通过验证删除添加的关系。从而生成合理的错别字混淆集。
针对上述三个问题,本发明提出并且实现了一种基于种子的错别字混淆集的生成方法。
发明内容
所要解决的技术问题:针对以上问题本发明提供一种可以有效对错别字种子混淆集进行自动添加和验证的一种基于种子的错别字混淆集生成方法。
本发明根据错别字种子,建立种子错别字混淆集图,并且根据错别字混淆集图,定义错别字混淆集图的统计量。
本发明通过种子错别字混淆集图和统计量,利用自动化过程自动添加错别字混淆集。
本发明对已添加的错别字混淆集进行自动验证。
技术方案:为了解决以上问题本发明提供了一种基于种子错别字混淆集的生成方法,其特征在于:包括以下步骤:
步骤1)根据种子错别字混淆集建立错别字混淆集图,错别字混淆集图是一个二元组构成Typo_CG=(Σ,E),其中Σ即为种子错别字混淆集本身,每个元素也称为汉字节点,简称节点或汉字,E是有向边的集合,有向边e=<Vi,Vj>表示汉字Vi指向汉字Vj的边,即汉字Vi可能写错成汉字Vj,在有向边e中,Vi称为正字,Vj称为Vi的错别字;
步骤2)利用错别字混淆集图,算法自动发现和挖掘错别字之间的规律,自动添加错别字混淆集;
步骤3)错别字混淆集中同音字错别字的自动生成,对汉字的同音错别字进行自动添加;
步骤4)错别字混淆集中非同音字错别字的自动生成,根据形相似等特征和错别字混淆集图,对汉字的非同音错别字进行自动添加。
所述的步骤2在错别字混淆集图Typo_CG中施行以下步骤:
步骤21)依次遍历错别字混淆集图中的汉字节点V,直到所有的节点都被遍历则结束;
步骤22)获取汉字节点V及其混淆集中的汉字的字频权重,我们利用以下方法来定义汉字节点V的字频权重λv:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310435002.9/2.html,转载请声明来源钻瓜专利网。





