[发明专利]纠错对的质量评估方法、装置、设备及存储介质有效
申请号: | 201911039234.6 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110781665B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 质量 评估 方法 装置 设备 存储 介质 | ||
本申请公开了一种纠错对的质量评估方法、装置、设备及存储介质,属于信息处理领域。方法包括:获取待评估的纠错对,纠错对包括第一字符串和第二字符串;确定第一字符串的第一部分和第二部分,以及第二字符串的第三部分和第四部分,第一部分与第三部分相同,第二部分与第四部分不同;根据参考语料,确定第一部分与第二部分之间的互信息值,以及第三部分与第四部分之间的互信息值,得到第一互信息值和第二互信息值;根据第一互信息值和第二互信息值,对纠错对进行质量评估。本申请可以实现对纠错对的自动化质量评估,减少对人力资源的消耗,提高质量评估的效率和准确度。
技术领域
本申请涉及信息处理领域,特别涉及一种纠错对的质量评估方法、装置、设备及存储介质。
背景技术
用户在使用搜索引擎进行搜索时,可能会因认知或打字失误等原因导致输入包含错误字符的第一字符串。为了提高搜索准确性,搜索系统可以先根据多个纠错对,对第一字符串进行识别,并将其纠正为正确的字符串,即第二字符串,再将第二字符串发往搜索引擎进行搜索。
为了便于对第一字符串进行纠错,往往需要大量人员预先对纠错语料包括的多个第一字符串进行人工纠错和标注,得到大量纠错对,每个纠错对包括一个第一字符串和对应的一个第二字符串。但是由于纠错语料包括的第一字符串的数量巨大,不少第一字符串不一定属于标注人员擅长的领域,因此,还需要对人工标注得到的纠错对进行质量评估。
相关技术中,在通过人工标注得到大量纠错对之后,通常采用多层人工审核和人工交叉审核的方式,来对纠错对进行人工质量评估,以评估纠错对是否符合质量要求。但是人工质量评估的方式将耗费大量人力资源,评估效率较低,且评估准确性容易受到人为因素的影响。
发明内容
本申请实施例提供了一种纠错对的质量评估方法、装置、设备及存储介质,可以用于解决相关技术中存在的通过人工方式进行质量评估会耗费大量人力资源,评估效率较低,且评估准确性容易受到人为因素影响的问题。所述技术方案如下:
一方面,提供了一种纠错对的质量评估方法,所述方法包括:
获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
根据所述第一互信息值和所述第二互信息值,对所述纠错对进行质量评估。
另一方面,提供了一种纠错对的质量评估装置,所述装置包括:
获取模块,用于获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
第一确定模块,用于确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
第二确定模块,用于根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
第三确定模块,用于根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911039234.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文件修复方法及装置
- 下一篇:基于生成式对抗网络的自然语言处理文本建模