[发明专利]文本错误检测模型的评测方法及装置有效

申请号：	202110283954.8	申请日：	2021-03-17
公开（公告）号：	CN112686045B	公开（公告）日：	2021-06-29
发明（设计）人：	赵明;田科;吴中勤	申请（专利权）人：	北京世纪好未来教育科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/226
代理公司：	北京开阳星知识产权代理有限公司 11710	代理人：	安伟
地址：	100089 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本错误检测模型评测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种文本错误检测模型的评测方法及装置，其中，该方法通过对第一错误文本进行错误检测，粗粒度地定位文本错误检测模型无法识别的第一错误类型；接着，通过对包含第一错误类型的子类型的种类更多的第二错误文本进行错误检测，从而细粒度地定位作文错误检测模型无法识别的子错误类型。本方案通过两次错误注入，能够准确、快速地定位文本错误检测模型无法识别的错误类型，且通过本实施例的方案获取的错误类型精确度较高。另外，本方案能够自动执行，无需人工参与，因此，能够有效提高文本错误检测模型的评测效率。

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本错误检测模型的评测方法及装置。

背景技术

随着人工智能（artificial intelligence，AI）技术的不断发展，AI已被广泛应用于各行各业，例如，金融、医疗、安防、教育等等。其中，在“AI+教育”场景中，利用AI进行智能的文本错误检测是重要的应用场景之一。实际应用中，通常会将预先训练好的文本错误检测模型部署于线上，对用户上传或输入的文本进行错误检测。然而，由于训练集的数据有限性等影响因素，训练集的样本可能无法覆盖全部错误类型，文本错误检测模型可能无法有效识别文本中包含的某些错误类型的错误。因此，需要查找文本错误检测模型无法识别的错误类型，这对于优化文本错误检测模型的性能具有重大意义。

传统的方式是通过人工将标注数据与文本错误检测模型输出的错误检测结果进行对比，从而确定文本错误检测模型无法识别的错误类型。由于人工处理具有一定的主观性，因此，确定的文本错误检测模型无法识别的错误类型的准确度较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本错误检测模型的评测方法及装置。

第一方面，本公开提供了一种文本错误检测模型的评测方法，

根据文本错误检测模型对第一错误文本进行错误检测，获取所述文本错误检测模型无法识别的第一错误类型；

根据所述文本错误检测模型对第二错误文本进行错误检测，获取所述文本错误检测模型无法识别的第一目标子类型；

其中，所述第二错误文本中包含的第一候选子类型的种类多于所述第一错误文本中包含的第一候选子类型的种类，所述第一候选子类型为所述第一错误类型的子类型；所述第一目标子类型为所述第一候选子类型中的一个或者多个。

在一些可能的设计中，所述方法还包括：

所述第二错误文本包含的第一候选子类型的错误数据占比多于所述第一错误文本中包含的第一候选子类型的错误数据占比。

在一些可能的设计中，所述第一错误文本的数量小于所述第二错误文本的数量。

在一些可能的设计中，所述根据文本错误检测模型对第一错误文本进行错误检测，获取所述文本错误检测模型无法识别的第一错误类型之前，还包括：

根据所述文本错误检测模型无法识别的历史数据在标准文本集合中进行匹配，获取匹配成功的第一文本；