[发明专利]纠错对的质量评估方法、装置、设备及存储介质有效
申请号: | 201911039234.6 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110781665B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 质量 评估 方法 装置 设备 存储 介质 | ||
1.一种纠错对的质量评估方法,其特征在于,所述方法包括:
获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估。
2.根据权利要求1所述的方法,其特征在于,所述第一部分和所述第二部分均包括至少一个分词;
所述根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,包括:
根据所述参考语料,确定所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值;
将所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值进行相加,得到所述第一部分与所述第二部分之间的互信息值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述参考语料,确定所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值,包括:
对于所述第一部分中的第一分词和所述第二部分中的第二分词,确定所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,所述第一分词为所述第一部分中的任一分词,所述第二分词为所述第二部分中的任一分词;
根据所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,确定所述第一分词与所述第二分词之间的互信息值。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第一分词和所述第二分词在所述参考语料中共现的次数,包括:
按照预设窗口长度,对所述参考语料进行遍历;
若遍历到的每个预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
5.根据权利要求4所述的方法,其特征在于,所述按照预设窗口长度,对所述参考语料进行遍历之后,还包括:
若遍历到的任一预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数与预设参数的比值,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,确定所述第一分词与所述第二分词之间的互信息值,包括:
确定所述第一分词在所述参考语料中出现的次数,所述第二分词在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数分别与所述参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;
根据所述第一比值、所述第二比值和所述第三比值,确定所述第一分词与所述第二分词之间的互信息值。
7.根据权利要求1-6任一所述的方法,其特征在于,所述根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估之前,还包括:
确定所述第一互信息值与所述第二互信息值之间的差值;
所述根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估,包括:
若所述差值的绝对值大于预设阈值,则确定所述纠错对符合质量要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911039234.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文件修复方法及装置
- 下一篇:基于生成式对抗网络的自然语言处理文本建模