[发明专利]自动分词拼写的文本识别方法及装置、存储介质在审
申请号: | 202110231725.1 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112989974A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 赵宏福 | 申请(专利权)人: | 赵宏福 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06F40/289;G10L13/10;G10L13/08 |
代理公司: | 北京鼎真知识产权代理事务所(普通合伙) 11815 | 代理人: | 洪波 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 分词 拼写 文本 识别 方法 装置 存储 介质 | ||
本申请公开了一种自动分词拼写的文本识别方法及装置、存储介质,所述方法包括:获取设定类型的文件,对所述文件中的文本进行识别,并确定文本之间的间距,文本之间的行距;根据文本之间的间距,确定出每行文本中是否存在换行;对文本中的词语进行识别,并提取所识别的词语;输出所述词语,并接收针对所述词语的调整,将调整后的词语作为识别的最终词语;接收针对所述最终词语的语音输出参数的设置;根据所述语音输出参数对所述最终词语中的文字进行读音标注,并为读音设置声调;接收读音及声调标注后的文本,根据文本所标注的读音、声调进行语音输出。本申请提升了其应用广泛性以及用户体验。
技术领域
本申请实施例涉及文本识别及语音输出技术,尤其涉及一种自动分词拼写的文本识别方法及装置、存储介质。
背景技术
因疫情原因,很多学校通过网课的方式进行教学。由此,很多例行的学习工作,也交给了家长来跟进。客观上讲,孩子居家上课方式,给家长带来了较重负担;比如词语默写这一常见的教学方式,是考查学生知识掌握程度的主要手段,这种方法占用时间较长,且词语朗读需要不断重复,要求读音标准。这对于需要上班的家长而言,造成了极大的困扰。主要原因有,虽然孩子有老人照看,但家中老人的文化水平参差不齐,且因年龄或地域问题,对于书本上的东西理解有偏差,朗读方式也很难被辨识等。
发明内容
有鉴于此,本申请实施例提供一种自动分词拼写的文本识别方法及装置、存储介质。
根据本申请的第一方面,提供一种自动分词拼写的文本识别方法,包括:
获取设定类型的文件,对所述文件中的文本进行识别,并确定文本之间的间距,文本之间的行距;
根据文本之间的间距,确定出每行文本中是否存在换行;
对文本中的词语进行识别,并提取所识别的词语;
输出所述词语,并接收针对所述词语的调整,将调整后的词语作为识别的最终词语;
接收针对所述最终词语的语音输出参数的设置;
根据所述语音输出参数对所述最终词语中的文字进行读音标注,并为读音设置声调;
接收读音及声调标注后的文本,根据文本所标注的读音、声调进行语音输出。
作为一种实现方式,所述方法还包括:
对所述最终文本进行儿化音识别,对识别出的儿化音文本进行儿化音标注;以及,识别所标注的读音中的重读、轻读语音,对重读、轻度的语音进行标注;
根据所标注的重读、轻读或儿化音对文本进行语音输出。
作为一种实现方式,所述针对所述最终词语的语音输出参数的设置,包括:
为所述最终词语设置语音读取速度,每个词语读取次数,每次间隔时长,读取顺序中的至少之一;
按读取速度、读取次数、间隔时长和读取顺序中至少之一对文本进行语音输出。
作为一种实现方式,所述对所述文件中的文本进行识别,并确定文本之间的间距,文本之间的行距,包括:
识别出所述文件中的文字,确定每个文字的坐标信息;
根据文字的坐标信息,确定文本的坐标关系;
基于所述坐标信息、所述坐标关系,确定文本之间的间距,文本之间的行距;
根据所述坐标信息,确定文本中文字之间的最短间隔和最大间隔,将文字之间间隔小于所述最大间隔的两个以上文字识别为词语,并确定所识别的词语中文字之间的间距与所述最短间隔之间的差值,对所述差值超过设定阈值的词语进行标示,以提示为可疑词语。
作为一种实现方式,所述获取设定类型的文件,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赵宏福,未经赵宏福许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231725.1/2.html,转载请声明来源钻瓜专利网。