[发明专利]一种汉字字形相似度计算方法有效

申请号：	201711257233.X	申请日：	2017-12-04
公开（公告）号：	CN108154167B	公开（公告）日：	2021-08-20
发明（设计）人：	龙华;祁俊辉;杜庆治;邵玉斌	申请（专利权）人：	昆明理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/903
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉字字形相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种汉字字形相似度计算方法，信息处理技术领域。本发明通过中文点阵字库和汉字五笔书写顺序规则，建立汉字特征数据库和汉字笔画数据库，对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串，之后通过余弦定理计算出基于汉字特征的字形相似度，通过Jaro‑Winkler Distance算法计算出基于汉字笔画的字形相似度，两个相似度分别从不同方面反映了汉字的相似程度，最后再将所计算的两个相似度进行融合，得到最终相似度。本发明与现有技术相比，主要解决了现有技术准确性欠佳、灵活性差等现象，致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。

技术领域

本发明涉及一种汉字字形相似度计算方法，信息处理技术领域。

背景技术

在汉语里面，许多汉字由于形体相似容易混淆，正确区分出这些易混淆的形近字对汉语教学、汉文编辑、排版、汉文机器识别、汉语广播等业务具有重要意义。

目前，对汉字字形相似度的计算方法主要分为两类：一类是获取汉字的基础信息，如字形结构、笔画数、笔画顺序等，将这些数据按照一定的编码规则生成数学表达式，再利用特定算法通过对数学表达式的处理进而获得汉字的字形相似度；另一类是采用图像处理技术提取汉字特征，对比差异化特征。但是这两类方法都有各自的缺陷，若使用第一类方法，需设定一些系数来平衡最终的输出结果；若使用第二类方法，对于一些复合字的相似度计算结果较差。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种汉字字形相似度计算方法，以解决上述问题。

本发明的技术方案是：一种汉字字形相似度计算方法，通过中文点阵字库和汉字五笔书写顺序规则，建立汉字特征数据库和汉字笔画数据库，对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串，之后通过余弦定理计算出基于汉字特征的字形相似度，通过Jaro-Winkler Distance算法计算出基于汉字笔画的字形相似度，最后再通过相似度融合算法，得出最终相似度。

具体包括以下步骤：

Step0.1：提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库，将点阵按照从上至下，从左至右的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中汉字所占像素数为p_i,i∈[0,40]，观察所有p_i,i∈[0,40]并生成该汉字所对应的汉字特征向量{p₁,p₂,…,p₄₀}，且将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征数据库。

Step0.2：提取汉字笔画并建立汉字笔画数据库。按照汉字五笔书写顺序规则，将横、竖、撇、捺、折编码为数字的1、2、3、4、5，生成该汉字所对应的汉字笔画编码字符串str，且将所有汉字及生成的汉字笔画编码字符串存入数据库，组建汉字笔画数据库。

Step1：记X、Y为两个将要计算字形相似度的汉字，从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}，从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串str_x和str_y。

Step2：将汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}作为输入，由余弦定理计算公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim₁(X,Y)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711257233.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字字形相似度计算方法有效

专利文献下载