[发明专利]一种基于种子的错别字混淆集生成方法有效

专利信息
申请号: 201310435002.9 申请日: 2013-09-23
公开(公告)号: CN104462054B 公开(公告)日: 2017-03-22
发明(设计)人: 刘亮亮;符建辉;施恒利;王石 申请(专利权)人: 镇江诺尼基智能技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 南京知识律师事务所32207 代理人: 汪旭东
地址: 212009 江苏省镇江市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于种子错别字混淆集的生成方法,包括以下步骤1)建立错别字混淆集图。根据种子错别字混淆集,建立错别字混淆集图;2)利用错别字混淆集图,算法自动发现和挖掘错别字之间的规律,自动添加错别字混淆集;3)错别字混淆集中同音字错别字的自动生成,对汉字的同音错别字进行自动添加;4)错别字混淆集中非同音字错别字的自动生成,根据形相似等特征和错别字混淆集图,对汉字的非同音错别字进行自动添加。
搜索关键词: 一种 基于 种子 错别字 混淆 生成 方法
【主权项】:
一种基于种子的错别字混淆集生成方法,其特征在于:包括以下步骤:步骤1)根据种子错别字混淆集建立错别字混淆集图,错别字混淆集图是一个二元组构成Typo_CG=(Σ,E),其中Σ即为种子错别字混淆集本身,每个元素也称为汉字节点,简称节点或汉字,E是有向边的集合,有向边e=<Vi,Vj>表示汉字Vi指向汉字Vj的边,即汉字Vi可能写错成汉字Vj,在有向边e中,Vi称为正字,Vj称为Vi的错别字;步骤2)利用错别字混淆集图,算法自动发现和挖掘错别字之间的规律,自动添加错别字混淆集;步骤3)错别字混淆集中同音字错别字的自动生成,对汉字的同音错别字进行自动添加;步骤4)错别字混淆集中非同音字错别字的自动生成,根据形相似等特征和错别字混淆集图,对汉字的非同音错别字进行自动添加;所述的步骤2)在错别字混淆集图Typo_CG中施行以下步骤:步骤21)依次遍历错别字混淆集图中的汉字节点V,直到所有的节点都被遍历则结束;步骤22)获取汉字节点V及其混淆集中的汉字的字频权重,我们利用以下方法来定义汉字节点V的字频权重λv:其中式n为汉字的总数,freq(V)是汉字节点V的字频,我们通过大规模语料训练而得;步骤23)计算汉字节点V及其混淆集中的汉字的常见度,通过常见度来判断汉字节点V以及其混淆集中的汉字是否是常见字和生僻字;一个汉字节点V的常见度fv通过以下来进行计算:λv为汉字节点V的字频权重,Indegree(V),Outdegree(V)为汉字节点V的错别字入度和错别字出度;如果fv>α,α为一阈值,α>1,则汉字V是常见字;如果fv<β,β为一小阈值,0<β<1,则汉字V是生僻字;步骤24)通过以下过程来对种子错别字混淆集图进行自动添加,添加过程如下:(1)如果三个汉字V1,V2,V3互为双向错别字,并且存在边<V1,V>、<V2、V>,则在错别字图中添加汉字V3指向汉字V的边<V3,V>,(2)如果汉字V是一个常见字,即fv>α,而汉字Vi为一生僻字,即并且错别字图中存在边<V,Vi>,则从错别字混淆集图Typo_CG中删除该边。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310435002.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top