[发明专利]一种汉字字形相似度计算方法有效

专利信息
申请号: 201711257233.X 申请日: 2017-12-04
公开(公告)号: CN108154167B 公开(公告)日: 2021-08-20
发明(设计)人: 龙华;祁俊辉;杜庆治;邵玉斌 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/903
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种汉字字形相似度计算方法,信息处理技术领域。本发明通过中文点阵字库和汉字五笔书写顺序规则,建立汉字特征数据库和汉字笔画数据库,对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串,之后通过余弦定理计算出基于汉字特征的字形相似度,通过Jaro‑Winkler Distance算法计算出基于汉字笔画的字形相似度,两个相似度分别从不同方面反映了汉字的相似程度,最后再将所计算的两个相似度进行融合,得到最终相似度。本发明与现有技术相比,主要解决了现有技术准确性欠佳、灵活性差等现象,致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。
搜索关键词: 一种 汉字 字形 相似 计算方法
【主权项】:
一种汉字字形相似度计算方法,其特征在于,具体包括以下步骤:Step0.1:提取汉字特征并建立汉字特征数据库,根据15×16像素中文点阵字库,将点阵按照从上至下,从左至右的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[0,40],观察所有pi,i∈[0,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库;Step0.2:提取汉字笔画并建立汉字笔画数据库,按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为数字的1、2、3、4、5,生成该汉字所对应的汉字笔画编码字符串str,且将所有汉字及生成的汉字笔画编码字符串存入数据库,组建汉字笔画数据库;Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40},从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串strx和stry;Step2:将汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40}作为输入,由余弦定理计算公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim1(X,Y);<mrow><msub><mi>Sim</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>x</mi><mn>1</mn></msub><msub><mi>y</mi><mn>1</mn></msub><mo>+</mo><msub><mi>x</mi><mn>2</mn></msub><msub><mi>y</mi><mn>2</mn></msub><mo>+</mo><mo>...</mo><mo>+</mo><msub><mi>x</mi><mn>40</mn></msub><msub><mi>y</mi><mn>40</mn></msub></mrow><mrow><msqrt><mrow><msubsup><mi>x</mi><mn>1</mn><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>x</mi><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mn>...</mn><mo>+</mo><msubsup><mi>x</mi><mn>40</mn><mn>2</mn></msubsup></mrow></msqrt><mo>&CenterDot;</mo><msqrt><mrow><msubsup><mi>y</mi><mn>1</mn><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>y</mi><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mn>...</mn><mo>+</mo><msubsup><mi>y</mi><mn>40</mn><mn>2</mn></msubsup></mrow></msqrt></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>Step3:将汉字笔画编码字符串strx和stry作为输入,由Jaro‑Winkler Distance算法求得汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y);Step3.1:获取汉字笔画编码字符串strx和stry的长度lenx和leny,并生成检测矩阵Step3.2:根据公式(2)计算匹配窗口值MW;<mrow><mi>M</mi><mi>W</mi><mo>=</mo><mfrac><mrow><mi>M</mi><mi>a</mi><mi>x</mi><mrow><mo>(</mo><mo>|</mo><msub><mi>len</mi><mi>x</mi></msub><mo>|</mo><mo>,</mo><mo>|</mo><msub><mi>len</mi><mi>y</mi></msub><mo>|</mo><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>-</mo><mn>1</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m和匹配字符换位数n,并根据公式(3)计算汉字笔画编码字符串strx和stry之间的Jaro Distance;<mrow><msub><mi>Dis</mi><mi>j</mi></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mfrac><mn>1</mn><mn>3</mn></mfrac><mrow><mo>(</mo><mfrac><mi>m</mi><mrow><msub><mi>len</mi><mi>x</mi></msub></mrow></mfrac><mo>+</mo><mfrac><mi>m</mi><mrow><msub><mi>len</mi><mi>y</mi></msub></mrow></mfrac><mo>+</mo><mfrac><mrow><mi>m</mi><mo>-</mo><mi>n</mi></mrow><mi>m</mi></mfrac><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>m</mi><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>Step3.4:获取汉字笔画编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy,根据公式(4)进一步计算汉字笔画编码字符串strx和stry之间的Jaro‑Winkler Distance,该值即为汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y);<mrow><msub><mi>Sim</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>Dis</mi><mrow><mi>j</mi><mi>w</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><</div> </div> <div class="b20"></div> <div class="down-box" id="down-box"> <div class="msg" style="display: block;"> <span>下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。</span> </div> <div class="btns"> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F01C2096946023DBE076AA9836F0CAB68" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> </div> <div class="warning"> <p>该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【<a href="https://wpa1.qq.com/l11yQAzu?_type=wpa&qidian=true">客服</a>】</p> <p>本文链接:http://www.vipzhuanli.com/patent/201711257233.X/,转载请声明来源钻瓜专利网。</p> </div> <ul class="clear_div other_o"><li class="prev">上一篇:<a href="/patent/201711232128.0/" title="一种风机智能故障诊断系统及方法">一种风机智能故障诊断系统及方法</a></li><li class="next">下一篇:<a href="/patent/201711260349.9/" title="综合货物检验系统及方法">综合货物检验系统及方法</a></li></ul> <div class="oth-box"> <dl class="d_th"><dd><span>同类专利</span></dd><dt class="th_a"></dt></dl> <dl class="d_th" style="padding-top:15px;"><dd><span>专利分类</span></dd></dl> <div class="ps_c"> <div><a href="/ipc/G/" target="_blank" title="物理">G 物理</a></div><a class="ml1" href="/ipc/G06/" target="_blank" title="计算;推算;计数">G06 计算;推算;计数</a><br/><a class="ml2" href="/ipc/G06K/" target="_blank" title="数据识别;数据表示;记录载体;记录载体的处理">G06K 数据识别;数据表示;记录载体;记录载体的处理</a><br/><a class="ml3" href="/pat/ipc/G06K9/00/" target="_blank" title="用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置">G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形,例如,指纹的方法或装置</a><br/><a class="ml3" href="/pat/ipc/G06K9/03/" target="_blank" title=".错误的检测或校正,例如,用重复扫描图形的方法">G06K9-03 .错误的检测或校正,例如,用重复扫描图形的方法</a><br/><a class="ml3" href="/pat/ipc/G06K9/18/" target="_blank" title=".应用具有附加代码标记或含有代码标记的打印字符的,例如,由不同形状的各个笔画组成的,而且每个笔画表示不同的代码值的字符">G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的,例如,由不同形状的各个笔画组成的,而且每个笔画表示不同的代码值的字符</a><br/><a class="ml3" href="/pat/ipc/G06K9/20/" target="_blank" title=".图像捕获">G06K9-20 .图像捕获</a><br/><a class="ml3" href="/pat/ipc/G06K9/36/" target="_blank" title=".图像预处理,即无须判定关于图像的同一性而进行的图像信息处理">G06K9-36 .图像预处理,即无须判定关于图像的同一性而进行的图像信息处理</a><br/><a class="ml3" href="/pat/ipc/G06K9/60/" target="_blank" title=".图像捕获和多种预处理作用的组合">G06K9-60 .图像捕获和多种预处理作用的组合</a><br/> </div> </div> </div> <div class="content-r"> <div class="btns content-list" id="downdd"> <div class="header"> <div class="header-title"><a >专利文件下载</a></div> <hr /> </div> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F01C2096946023DBE076AA9836F0CAB68" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e6%b1%89%e5%ad%97 ">汉字 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/01132087.7/">二字码输入法</a></li> <li><a href="/patent/200510042873.X/">组合拼字式汉字学习系统</a></li> <li><a href="/patent/200810174668.2/">能够显示汉字声调读音的彩色汉字</a></li> <li><a href="/patent/200920281225.3/">识字演示图板</a></li> <li><a href="/patent/201010504739.8/">汉字输入与汉字识字教学相整合系统</a></li> <li><a href="/patent/201110000513.9/">一种汉字信息的处理方法及汉字信息的处理装置</a></li> <li><a href="/patent/201310418439.1/">汉字笔顺学习装置、汉字笔顺学习辅助方法</a></li> <li><a href="/patent/201610550538.9/">汉字学习系统及其学习方法</a></li> <li><a href="/patent/201811503636.2/">一种汉字多媒体卡片的制作方法及装置</a></li> <li><a href="/patent/201910906417.7/">汉字识别纠错方法、装置、计算机可读介质及电子设备</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e5%ad%97%e5%bd%a2 ">字形 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/201710197665.X/">字形剖分方法及字形剖分装置</a></li> <li><a href="/patent/201720087015.5/">“王”字形壁柜</a></li> <li><a href="/patent/201830231580.4/">铝材(Ч字形)</a></li> <li><a href="/patent/201830641623.6/">镜子(A字形)</a></li> <li><a href="/patent/201920434351.1/">人字形齿轮</a></li> <li><a href="/patent/201930254364.6/">桌子(Z字形)</a></li> <li><a href="/patent/201930713089.X/">唐字形路灯</a></li> <li><a href="/patent/202030049759.5/">枕头(《凹》字形)</a></li> <li><a href="/patent/94116791.7/">字形家具</a></li> <li><a href="/patent/98238709.1/">字形灯箱</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e7%9b%b8%e4%bc%bc ">相似 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200380103014.6/">相似图像提取装置、相似图像提取方法以及相似图像提取程序</a></li> <li><a href="/patent/201610394241.8/">一种钢结构火灾反应分析方法</a></li> <li><a href="/patent/201880099489.9/">相似度计算装置、相似度计算方法以及相似度计算程序</a></li> <li><a href="/patent/201910469500.2/">一种蛋白质相似度及相似蛋白质的确定方法和系统</a></li> <li><a href="/patent/201910887581.8/">一种获取相似语句的方法、装置、存储介质及电子设备</a></li> <li><a href="/patent/201910900623.7/">一种图像搜索方法、装置和存储介质</a></li> <li><a href="/patent/201911366300.0/">基于相似寿命模型和相似寿命的复杂产品可靠性评定方法</a></li> <li><a href="/patent/202011596692.2/">获取机构技术相似性的方法及装置</a></li> <li><a href="/patent/202030797465.0/">口罩(相似)</a></li> <li><a href="/patent/202130043259.5/">台灯(相似)</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e8%ae%a1%e7%ae%97%e6%96%b9%e6%b3%95 ">计算方法 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/201610156814.3/">电网理论线损的计算方法和系统</a></li> <li><a href="/patent/201610192416.7/">一种基于XML的小卫星遥测参数衍生计算方法</a></li> <li><a href="/patent/201610789024.9/">一种基于多尺度耦合的并行进程合并方法及系统</a></li> <li><a href="/patent/201710159951.7/">一种注采井网流场速度的快速计算方法</a></li> <li><a href="/patent/201710736786.7/">一种自适应实时火星系统星历计算方法</a></li> <li><a href="/patent/201910100444.5/">基于分类模型的合同费用计算方法、装置及计算机设备</a></li> <li><a href="/patent/201911056157.5/">一种超越函数计算方法及装置</a></li> <li><a href="/patent/201980002589.X/">计算方法决定系统、计算方法决定方法、记录介质</a></li> <li><a href="/patent/202011315126.X/">一种混合湍流计算方法</a></li> <li><a href="/patent/202011341699.X/">一种基于芯片检测的HRD评分计算方法</a></li> </ul> </div> </div> </div> </div> <input type="hidden" id="hid_id" /> <script type="text/javascript"> /* <![CDATA[ */ var pat_ajax_url = "/down/check.html"; var wppay_ajax_url = "/pay/down"; var pnum = "201711257233.X"; var openNo = "CN108154167B"; var op = "20210820"; var y = "2021"; /* */
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

tel code back_top