[发明专利]一种基于种子的错别字混淆集生成方法有效
| 申请号: | 201310435002.9 | 申请日: | 2013-09-23 |
| 公开(公告)号: | CN104462054B | 公开(公告)日: | 2017-03-22 |
| 发明(设计)人: | 刘亮亮;符建辉;施恒利;王石 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 南京知识律师事务所32207 | 代理人: | 汪旭东 |
| 地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种基于种子错别字混淆集的生成方法,包括以下步骤1)建立错别字混淆集图。根据种子错别字混淆集,建立错别字混淆集图;2)利用错别字混淆集图,算法自动发现和挖掘错别字之间的规律,自动添加错别字混淆集;3)错别字混淆集中同音字错别字的自动生成,对汉字的同音错别字进行自动添加;4)错别字混淆集中非同音字错别字的自动生成,根据形相似等特征和错别字混淆集图,对汉字的非同音错别字进行自动添加。 | ||
| 搜索关键词: | 一种 基于 种子 错别字 混淆 生成 方法 | ||
【主权项】:
一种基于种子的错别字混淆集生成方法,其特征在于:包括以下步骤:步骤1)根据种子错别字混淆集建立错别字混淆集图,错别字混淆集图是一个二元组构成Typo_CG=(Σ,E),其中Σ即为种子错别字混淆集本身,每个元素也称为汉字节点,简称节点或汉字,E是有向边的集合,有向边e=<Vi,Vj>表示汉字Vi指向汉字Vj的边,即汉字Vi可能写错成汉字Vj,在有向边e中,Vi称为正字,Vj称为Vi的错别字;步骤2)利用错别字混淆集图,算法自动发现和挖掘错别字之间的规律,自动添加错别字混淆集;步骤3)错别字混淆集中同音字错别字的自动生成,对汉字的同音错别字进行自动添加;步骤4)错别字混淆集中非同音字错别字的自动生成,根据形相似等特征和错别字混淆集图,对汉字的非同音错别字进行自动添加;所述的步骤2)在错别字混淆集图Typo_CG中施行以下步骤:步骤21)依次遍历错别字混淆集图中的汉字节点V,直到所有的节点都被遍历则结束;步骤22)获取汉字节点V及其混淆集中的汉字的字频权重,我们利用以下方法来定义汉字节点V的字频权重λv:其中式n为汉字的总数,freq(V)是汉字节点V的字频,我们通过大规模语料训练而得;步骤23)计算汉字节点V及其混淆集中的汉字的常见度,通过常见度来判断汉字节点V以及其混淆集中的汉字是否是常见字和生僻字;一个汉字节点V的常见度fv通过以下来进行计算:λv为汉字节点V的字频权重,Indegree(V),Outdegree(V)为汉字节点V的错别字入度和错别字出度;如果fv>α,α为一阈值,α>1,则汉字V是常见字;如果fv<β,β为一小阈值,0<β<1,则汉字V是生僻字;步骤24)通过以下过程来对种子错别字混淆集图进行自动添加,添加过程如下:(1)如果三个汉字V1,V2,V3互为双向错别字,并且存在边<V1,V>、<V2、V>,则在错别字图中添加汉字V3指向汉字V的边<V3,V>,(2)如果汉字V是一个常见字,即fv>α,而汉字Vi为一生僻字,即并且错别字图中存在边<V,Vi>,则从错别字混淆集图Typo_CG中删除该边。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310435002.9/,转载请声明来源钻瓜专利网。





