[发明专利]汉字骨架自动合成方法及大规模中文字库自动生成方法有效
申请号: | 201910649353.7 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110427989B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 连宙辉;唐树森;夏泽青;唐英敏;肖建国 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F16/21 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种汉字骨架自动合成方法及大规模中文字库的自动生成方法,将中文字符视为点的序列(即书写轨迹),通过构建具有单调注意力机制的循环神经网络模型FontRNN来进行汉字骨架的自动合成,从少量训练样本中学习合成其余具有相同风格的汉字字符,实现汉字骨架的自动合成。本发明可克服现有汉字合成技术存在的合成汉字模糊、笔画丢失、结构错误等不足,且本发明模型可以从仅仅几百个训练样本中学习如何合成其余数千个具有相同风格的汉字字符。因此,本发明可以极大地降低制作大规模中文字库的成本,具有很大的实际应用价值。 | ||
搜索关键词: | 汉字 骨架 自动 合成 方法 大规模 中文 字库 生成 | ||
【主权项】:
1.一种基于循环神经网络的汉字骨架的自动合成方法,将中文字符视为书写轨迹的点的序列,构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN,从少量训练样本中学习合成其余具有相同风格的汉字字符,由此实现汉字骨架的自动合成;包括如下步骤:第一步,获取参考字骨架和目标字骨架,作为训练集;第二步,构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN;FontRNN模型包括:编码器、解码器、单调注意力模块、二维高斯混合模型和分类模型;编码器是一个双向神经网络;解码器是单层的循环神经网络;单调注意力模块为连接编码器和解码器的桥梁,用于使解码器在每一步解码更加专注,根据单调注意机制计算得到上下文向量ci;编码器接收参考字骨架作为输入并对其进行编码,得到一个隐藏状态序列;再将隐藏状态序列输入到单调注意力模块;单调注意力模块根据当前时刻解码器的隐藏态和编码器输出的每个隐藏态计算每个编码器隐藏态的权重,然后对每个编码器隐藏态进行加权求和得到当前解码时刻的上下文向量;将所述上下文向量输入到解码器进行解码;在每个解码时刻,解码器根据上一时刻注意力模块输出的上下文向量和目标字骨架输入进行解码,获得当前解码器隐藏状态;然后将解码器隐藏状态输入到二维高斯混合模型和分类模型中预测输出点的相对坐标及其类别,得到当前时刻尽可能与目标相同的输出;在训练阶段,用第一步得到的训练集训练FontRNN直到收敛,得到训练好的FontRNN;第三步,利用训练好的FontRNN接收未在训练阶段出现过的参考字骨架,作为输入,自动合成得到其对应的目标字骨架;第四步,利用一个简单的卷积神经网络模型作为外轮廓恢复模型,恢复第三步得到的目标字骨架的外轮廓形状;通过上述步骤,实现基于循环神经网络的汉字骨架的自动合成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910649353.7/,转载请声明来源钻瓜专利网。