[发明专利]数据处理方法、文本识别模型的生成方法和文本识别方法有效
申请号: | 202110581037.8 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113033200B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 宁亚光 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06F40/216;G06F16/35;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王姗姗;郭丽祥 |
地址: | 100080 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 文本 识别 模型 生成 | ||
本申请提出一种数据处理方法、文本识别模型的生成方法和文本识别方法,其中,数据处理方法包括:对待处理文本进行分词处理,得到分词结果;对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;根据分词结果的编码,确定训练样本。本申请获得的训练样本所训练的模型,能够提高处理数学相关自然语言处理任务的能力。
技术领域
本申请涉及数据处理领域,尤其涉及数据处理方法、文本识别模型的生成方法和文本识别方法。
背景技术
由于目前的自然语言处理主要的应用场景为新闻、阅读、翻译等等场景,致使其在预训练阶段的编码和字典比较关注于自然语序和语义的理解。但是在数学题的场景中,数学题不仅包含大量的自然语句,同时也夹杂着大量的数学符号和数字。申请人发现,现有的基于完全自然语言训练得到的模型,可能不支持大多数的数学符号,又或者是没有对数学字符进行特殊考虑,致使经过这样训练的模型在数学题相关的应用场景下表现不佳。
发明内容
本申请实施例提供一种数据处理方法、文本识别模型的生成方法和文本识别方法,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种数据处理方法,包括:
对待处理文本进行分词处理,得到分词结果;
对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
根据分词结果的编码,确定训练样本。
第二方面,本申请实施例提供了一种文本识别模型的生成方法,包括:
获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括上述第一方面的数据处理方法所确定的训练样本;
根据训练数据训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
第三方面,本申请实施例提供了一种文本识别方法,包括:
对待识别文本进行分词处理,得到分词结果;
对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
将分词结果的编码输入文本识别模型,得到文本识别结果,其中,文本识别模型为利用上述第二方面的文本识别模型的生成方法所生成的。
第四方面,本申请实施例提供了一种数据处理装置,包括:
第一分词模块,用于对待处理文本进行分词处理,得到分词结果;
第一编码模块,用于对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
训练样本确定模块,用于根据分词结果的编码,确定训练样本。
第五方面,本申请实施例提供了一种文本识别模型的生成装置,包括:
训练数据获取模块,用于获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括上述第四方面的数据处理装置所确定的训练样本;
训练模块,用于根据训练数据训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
第六方面,本申请实施例提供了一种文本识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581037.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型生成方法、装置以及用于模型生成的装置
- 下一篇:采油用封隔器