[发明专利]一种基于人工智能技术的听写系统构建方法以及听写机在审
申请号: | 202111361230.7 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114064839A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 王蕊 | 申请(专利权)人: | 王蕊 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F3/0488;G06F40/284;G06V30/148;G06V30/226;G09B19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 技术 听写 系统 构建 方法 以及 | ||
1.一种基于人工智能技术的听写系统构建方法机,其特征在于,包括以下步骤:
(一)、汉字数据库与算法模型搭建
将汉字数据库搭建至云端,并建立好触发查询事务,具体步骤如下:
a、数据库的组成:将每个汉字的字体与笔顺规则、发音文件、常用组词分别进行存储;建立手写汉字存储数据库,将现有的手写汉字公共数据集同步,进行手写汉字数据库的初始化;
b、显示触摸屏采用SVG格式,建立以触摸屏中心为原点的坐标轴,并划分为8个象限,并对每个象限映射为0-7的8个数字;
c、制定笔顺规则并分别封装成函数;
制定笔顺规则:分别为“从上到下”、“从左到右”、“先中间后两边”、“先里后外”、“先外后里”共5个规则;依据上述b.项中的8个象限对应的坐标参照范围以及SVG图的path坐标差值,分别封装成笔顺规则函数代码,对笔画顺序进行判断;
建立低龄儿童常用字的笔顺规则的定义并匹配在对应字的数据库内,建立触发事务;
d、建立多种实际条件下的汉字分割算法
采用的数据集是公共数据集,由于样本数据是单个字,因此可以对单字识别;但是需要多字识别,需要对多个字符先进行分割,然后将分割后的字符逐一识别;采用投影分割的方式对多字符进行分割,先水平投影再垂直投影;设定分割阈值,对于印刷字体的水平分割阈值为2mm,垂直分割阈值为1mm;对于听写字体的分割阈值,在已有的田字格本子上进行,通常水平分割阈值为3mm,垂直分割阈值为5mm;最后将分割完成后的图片或者需要识别的图片转成[64,64]大小,准备输入到多分类汉字识别的tensorflow模型中;具体见图4所示,具体阈值大小包括但不限于上述阈值;
e、训练并建立汉字识别模型
用tensorflow建立多分类任务,比如3000个文字识别就是3000个类别的分类任务;损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1;
研究并建立1*1*2*2层卷积神经网络,卷积核数量分别为64、128、256、512,步长为[2,2],每个池化pooling层采用MaxPooling2D(pool_size=(2,2)),最后经过flatten层,密集连接层为1024个隐藏神经元,激活函数用relu,网络结构层请详见图5所示;
(二)、显示与朗读部分功能构建
a、通过JAVASCRIPT编写前端脚本,调取每个字的笔顺、发音、字形、词组,并在显示屏上输出显示;
b、移动设备的触摸显示屏调用,设定前端界面,针对各个版本的小学语文字词,由云端数据库进行联网并下载;
c、拍照输入字词方式:对纸质版字词进行识别,通过摄像头按钮触发调用汉字分割算法对多个字进行分割;分割为单个汉字后,调用汉字识别模型即tensorflow多分类模型进行识别;生成识别结果的显示界面,若出现识别错误的汉字,则手动输入识别并确认;
d、建立数据库查询触发事务:对于确认的汉字,通过数据库中已存储的汉字与其词组调取,并输出显示;
(三)、汉字识别功能构建
a、小孩听写完后,对着书写的字词进行拍照;触发摄像头按钮调用汉字分割算法,对多字进行分割;
b、汉字分割后,调用汉字识别模型即tensorflow多分类模型进行识别;
c、对于写错的字存入汉字错字库;
(四)、笔顺识别功能构建
a、通过移动设备的触摸屏上写字并显示,并按照顺序存储显示屏的轨迹;目前的在线手写输入系统中的文字都是由SVG图像表示;文字的笔画也由SVG的path对象存储,其轨迹和形状都通过手写过程中获取的坐标记录,确定每笔以及笔画间位置关系;
b、写字轨迹SVG矢量图计算法,判断写字的笔画顺序;
将触摸屏做田字格和斜角对角线的划分,建立坐标轴原点,并且切分为8个象限;建立字的边界相对原点,捕捉“抬笔”、“落笔”动作,形成写字轨迹矢量图,将每个汉字的笔画轨迹转化为path矢量,存储手写汉字轨迹中的每笔path向量值;映射每笔path值到8个象限中,判断path开始向量值、过程向量值与结束的向量值差值对比;将笔画间位置关系映射转化为笔画在8个象限的迁移关系;
c、笔画顺序判断
针对识别出的汉字,调用其已封装的笔顺判断规则函数;将写字轨迹SVG矢量图计算后,调用笔顺规则函数判断笔画顺序,与该字已匹配的笔顺规则比较,计算后得到写字笔画顺序上的判断,并输出判断错误的顺序;
(五)、数据库与系统功能功能构建
a、存储功能:对已听写的字词进行存储,方便下次的复习调用;同时,对写错的字,存储至错误字库;
b、对写错的字筛查出进行二次听写;
(六)、循环补充数据与优化模型功能模块构建
a、对于学生书写正确的汉字图片每隔一段时间自动同步到云数据库后端,进行手写汉字数据库的扩充;
b、检测结果中,增加报错互动界面;对于识别错误的汉字,进行上传发送到云端数据库中,并触发循环检测,进行优化模型,通过调参不断输出与检测比较,提升模型准确率;
(七)、英文单词听写功能模块构建
英文单词听写识别模块与上述的汉字听写模块结构相同,现仅列明差异的地方:
1)云端数据库构成:
a、建立大小写英文字母共52个的数据表,分别映射到表中的0到51个数字,形成字母数字映射表;
b、英文单词数据库的组成:每个常用单词(含小学单词)对应的发音文件、书写视频、对应字母映射的数字集合存储在数据库中;
c、建立手写字母存储数据库,将现有的手写字母公共数据集同步,进行手写字母数据库的初始化;
2)每个英文单词的人工智能识别过程
a、听写中,学生在听写表中听写;听写表分别设置:每个竖格的宽度为3mm,字母间垂直分割阈值2mm、字母间水平分割阈值4mm、单词间垂直分割阈值5mm,每隔1个空格书写下一个单词,分别进行单词分割、字母分割;
b、在听写过程中,对单词的每个字母进行识别后再组合为一个字符串;单字母识别基于四层卷积神经网络的tensorflow多分类模型,卷积核数量分别为32、64、128、256,步长为[1,1]、[3,3]、[5,5]、[5,5],每个池化pooling层采用MaxPooling2D(pool_size=(3,3)),最后经过flatten层,密集连接层为512个隐藏神经元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王蕊,未经王蕊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111361230.7/1.html,转载请声明来源钻瓜专利网。