[发明专利]数据处理方法、文本识别模型的生成方法和文本识别方法有效
申请号: | 202110581037.8 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113033200B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 宁亚光 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06F40/216;G06F16/35;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王姗姗;郭丽祥 |
地址: | 100080 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 文本 识别 模型 生成 | ||
1.一种数据处理方法,其特征在于,包括:
对待处理文本进行分词处理,得到分词结果;
对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,每个所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符,所述数学字符包括数字、数值和数学符号中至少一种,所述至少两类编码中的其中一类编码为所述分词关于数字或数值的编码,和/或,所述至少两类编码中其中一类编码为所述分词关于数学符号的编码;
根据所述分词结果的编码,确定训练样本。
2.根据权利要求1所述的方法,其特征在于,还包括:在所述分词结果中存在数值的情况下,对数值按照单个数字进行再次分词;
对所述分词结果中的分词进行编码,包括:对所述再次分词后的分词结果中的分词进行编码。
3.根据权利要求1或2所述的方法,其特征在于,所述至少两类编码中各类编码包括第一子编码和/或第二子编码,其中,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容。
4.根据权利要求3所述的方法,其特征在于,在所述至少两类编码中第一类编码为所述分词关于数字的编码的情况下,采用数字对应的独热编码作为所述第一类编码的第二子编码;
在所述至少两类编码中第一类编码为所述分词关于数值的编码的情况下,采用数值本身作为所述第一类编码的第二子编码。
5.根据权利要求1所述的方法,其特征在于,所述训练样本包括所述分词结果的编码经过随机掩码后剩下的部分编码,所述训练样本的标签包括所述分词结果的编码被随机掩码的部分编码;
或者,所述训练样本包括所述分词结果的编码中第一句内容的编码,所述训练样本的标签包括所述分词结果的编码中第二句内容的编码,所述第一句内容和所述第二句内容为所述训练样本中相邻的两句内容。
6.一种文本识别模型的生成方法,其特征在于,包括:
获取训练数据,所述训练数据包括训练样本以及所述训练样本的标签,其中所述训练样本包括采用权利要求1至5中任一项所述的数据处理方法所确定的训练样本;
根据所述训练数据训练预设神经网络,训练完成后得到文本识别模型,所述文本识别模型能够对包含数学字符的文本进行识别。
7.根据权利要求6所述的方法,其特征在于,所述标签中分词的编码关于数学字符的编码包括第一子编码和第二子编码,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容的情况下,采用关于数学字符的编码中第一子编码和第二子编码进行损失计算,或者,采用关于数学字符的编码中第一子编码进行损失计算。
8.一种文本识别方法,其特征在于,包括:
对待识别文本进行分词处理,得到分词结果;
对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,每个所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符,所述数学字符包括数字、数值和数学符号中至少一种,所述至少两类编码中的其中一类编码为所述分词关于数字或数值的编码,和/或,所述至少两类编码中其中一类编码为所述分词关于数学符号的编码;
将所述分词结果的编码输入文本识别模型,得到文本识别结果,其中,所述文本识别模型为利用权利要求6或7所述的文本识别模型的生成方法所生成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581037.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型生成方法、装置以及用于模型生成的装置
- 下一篇:采油用封隔器