[发明专利]一种基于种子的错别字混淆集生成方法有效

申请号：	201310435002.9	申请日：	2013-09-23
公开（公告）号：	CN104462054B	公开（公告）日：	2017-03-22
发明（设计）人：	刘亮亮;符建辉;施恒利;王石	申请（专利权）人：	镇江诺尼基智能技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	南京知识律师事务所32207	代理人：	汪旭东
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于种子错别字混淆集的生成方法，包括以下步骤1）建立错别字混淆集图。根据种子错别字混淆集，建立错别字混淆集图；2）利用错别字混淆集图，算法自动发现和挖掘错别字之间的规律，自动添加错别字混淆集；3）错别字混淆集中同音字错别字的自动生成，对汉字的同音错别字进行自动添加；4）错别字混淆集中非同音字错别字的自动生成，根据形相似等特征和错别字混淆集图，对汉字的非同音错别字进行自动添加。
搜索关键词：	一种基于种子错别字混淆生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于种子的错别字混淆集生成方法，其特征在于：包括以下步骤：步骤1)根据种子错别字混淆集建立错别字混淆集图，错别字混淆集图是一个二元组构成Typo_CG＝(Σ,E)，其中Σ即为种子错别字混淆集本身，每个元素也称为汉字节点，简称节点或汉字，E是有向边的集合，有向边e＝<Vi,Vj>表示汉字Vi指向汉字Vj的边，即汉字Vi可能写错成汉字Vj，在有向边e中，Vi称为正字，Vj称为Vi的错别字；步骤2)利用错别字混淆集图，算法自动发现和挖掘错别字之间的规律，自动添加错别字混淆集；步骤3)错别字混淆集中同音字错别字的自动生成，对汉字的同音错别字进行自动添加；步骤4)错别字混淆集中非同音字错别字的自动生成，根据形相似等特征和错别字混淆集图，对汉字的非同音错别字进行自动添加；所述的步骤2)在错别字混淆集图Typo_CG中施行以下步骤：步骤21)依次遍历错别字混淆集图中的汉字节点V，直到所有的节点都被遍历则结束；步骤22)获取汉字节点V及其混淆集中的汉字的字频权重，我们利用以下方法来定义汉字节点V的字频权重λv：其中式n为汉字的总数，freq(V)是汉字节点V的字频，我们通过大规模语料训练而得；步骤23)计算汉字节点V及其混淆集中的汉字的常见度，通过常见度来判断汉字节点V以及其混淆集中的汉字是否是常见字和生僻字；一个汉字节点V的常见度fv通过以下来进行计算：λv为汉字节点V的字频权重，Indegree(V)，Outdegree(V)为汉字节点V的错别字入度和错别字出度；如果fv>α，α为一阈值，α>1，则汉字V是常见字；如果fv<β，β为一小阈值，0<β<1，则汉字V是生僻字；步骤24)通过以下过程来对种子错别字混淆集图进行自动添加，添加过程如下：(1)如果三个汉字V1，V2，V3互为双向错别字，并且存在边<V1,V>、<V2、V>，则在错别字图中添加汉字V3指向汉字V的边<V3,V>，(2)如果汉字V是一个常见字，即fv>α，而汉字Vi为一生僻字，即并且错别字图中存在边<V,Vi>，则从错别字混淆集图Typo_CG中删除该边。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司，未经镇江诺尼基智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310435002.9/，转载请声明来源钻瓜专利网。

上一篇：一种XML数据库触发器的实现方法、装置及XML数据库
下一篇：文档协同编辑中的一致性维护方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于种子的错别字混淆集生成方法有效

专利文献下载