[发明专利]一种自动生成纠错语料的方法和系统有效
申请号: | 202110207599.6 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112560452B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 章立;方宽;王瑞欣;周日康 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216;G06F3/023 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 纠错 语料 方法 系统 | ||
本公开提供了一种自动生成纠错语料的方法和系统,所述方法包括:获取正确的语料,触发一个拼音转移图;根据所述语料的字权重和出错权重,得到改错点;将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。
技术领域
本公开涉及信息技术领域,特别涉及一种自动生成纠错语料的方法、系统、电子设备及计算机可读介质。
背景技术
目前,在终端设备上输入汉字的输入法以拼音方式为主,由于诸多客观原因,输入时出错率较高。
在某些业务场景中,例如在搜索引擎中搜索关键词,自动纠错的功能就尤为重要。但是,在搜索引擎的自动纠错系统中,一个比较复杂的问题在于如何生产用来训练自动纠错模型的语料。生产的纠错语料越多,准确性越高,越有利于后续基于纠错语料进行模型训练和优化。
目前生产纠错语料的方法主要都是人工对齐或者是半自动对齐,这些对齐方法依赖于两次连续用户语料的对齐,需要大量的人力标注成本,并且严重依赖于用户历史行为,导致挖掘出的语料缺少对长尾样本的覆盖。
因此,急需一种自动生成纠错语料的方法,通过模拟用户拼音输入行为直接生成纠错语料,无需人工标注,用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。
发明内容
有鉴于此,本公开实施例的目的在于提供一种自动生成纠错语料的方法,通过模拟用户拼音输入行为直接生成纠错语料,无需人工标注,用更低的成本生成更大规模的、更可信的和更符合用户习惯的拼写错误语料的纠错语料数据集。
根据本公开的第一方面,提供了一种自动生成纠错语料的方法,包括:
获取正确的语料,触发一个拼音转移图;
根据所述语料的字权重和出错权重,得到改错点;
将所述改错点的字符映射为所述拼音转移图的对应节点,以所述对应节点为起点,根据所述拼音转移图的边权重进行转移,得到转移后的拼音节点;
根据所述转移后的拼音节点和错误模型,将所述转移后的拼音节点转换为对应的平行语料;
将所述平行语料通过分类模型,得到所述平行语料的可信度,根据所述可信度,判断是否采纳所述平行语料作为所述纠错语料。
在一个可能的实施例中,其中,所述触发一个拼音转移图包括:
基于预设的触发概率,通过均匀分布生成一个随机数,根据所述随机数触发一个拼音转移图。
在一个可能的实施例中,其中,所述拼音转移图包括:
拼音前缀树转移图,由具有公共前缀的拼音节点组成,以最长拼音前缀为树冠,以最短拼音前缀为树根,以各个节点间的拼音的编辑距离作为节点的边权重,位于树冠的拼音节点指向位于树根的拼音节点;
拼音模糊音转移图,由边权重为1的拼音节点组成,拼音节点之间无指向性;
拼音键盘转移图,由分别在九宫格键盘坐标系和二十六键坐标系下,计算得到的拼音节点之间的earth-mover距离的加权和的倒数为边权重的拼音节点组成,拼音节点之间无指向性。
在一个可能的实施例中,其中,所述字权重由语料库中每个字符的出现频率的平方根进行归一化后得到;所述出错权重是每个位置的字符的出错概率与字权重的乘积,其中出错概率是指用户拼写错误的发生位置的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207599.6/2.html,转载请声明来源钻瓜专利网。