[发明专利]数据处理方法、文本识别模型的生成方法和文本识别方法有效

申请号：	202110581037.8	申请日：	2021-05-27
公开（公告）号：	CN113033200B	公开（公告）日：	2021-08-24
发明（设计）人：	宁亚光	申请（专利权）人：	北京世纪好未来教育科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/126;G06F40/216;G06F16/35;G06N3/08
代理公司：	北京市铸成律师事务所 11313	代理人：	王姗姗;郭丽祥
地址：	100080 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法文本识别模型生成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出一种数据处理方法、文本识别模型的生成方法和文本识别方法，其中，数据处理方法包括：对待处理文本进行分词处理，得到分词结果；对分词结果中的分词进行编码，得到分词结果的编码，其中，分词结果的编码包括至少两类编码，至少两类编码中各类编码为分词关于各类字符的编码，各类字符中至少一类字符属于数学字符；根据分词结果的编码，确定训练样本。本申请获得的训练样本所训练的模型，能够提高处理数学相关自然语言处理任务的能力。

技术领域

本申请涉及数据处理领域，尤其涉及数据处理方法、文本识别模型的生成方法和文本识别方法。

背景技术

由于目前的自然语言处理主要的应用场景为新闻、阅读、翻译等等场景，致使其在预训练阶段的编码和字典比较关注于自然语序和语义的理解。但是在数学题的场景中，数学题不仅包含大量的自然语句，同时也夹杂着大量的数学符号和数字。申请人发现，现有的基于完全自然语言训练得到的模型，可能不支持大多数的数学符号，又或者是没有对数学字符进行特殊考虑，致使经过这样训练的模型在数学题相关的应用场景下表现不佳。

发明内容

本申请实施例提供一种数据处理方法、文本识别模型的生成方法和文本识别方法，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种数据处理方法，包括：

对待处理文本进行分词处理，得到分词结果；

对分词结果中的分词进行编码，得到分词结果的编码，其中，分词结果的编码包括至少两类编码，至少两类编码中各类编码为分词关于各类字符的编码，各类字符中至少一类字符属于数学字符；

根据分词结果的编码，确定训练样本。

第二方面，本申请实施例提供了一种文本识别模型的生成方法，包括：

获取训练数据，训练数据包括训练样本以及训练样本的标签，其中训练样本包括上述第一方面的数据处理方法所确定的训练样本；

根据训练数据训练预设神经网络，训练完成后得到文本识别模型，文本识别模型能够对包含数学字符的文本进行识别。

第三方面，本申请实施例提供了一种文本识别方法，包括：

对待识别文本进行分词处理，得到分词结果；

将分词结果的编码输入文本识别模型，得到文本识别结果，其中，文本识别模型为利用上述第二方面的文本识别模型的生成方法所生成的。