[发明专利]一种中文拼写纠错方法在审
申请号: | 202310311640.3 | 申请日: | 2023-03-28 |
公开(公告)号: | CN116306597A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 付智超;徐翔;钱程 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/211;G06F40/284;G06F18/241;G06F40/44 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 拼写 纠错 方法 | ||
1.一种中文拼写纠错方法,其特征在于,包括:
获得原始数据集,根据易混字替换概率将原始数据集中的常用汉字替换成对应的易混字得到第一训练样本子集,根据易混词替换概率将原始数据集中的常用词中的一个字替换成对应的易混词中的一个字得到第二训练样本子集,第一训练样本子集和第二训练样本子集构建训练样本集,每个训练样本包括原始句子和对应的正确句子;
获得纠错模型,所述纠错模型包括Macbert模块、字形编码和拼音编码模块和输出融合模块;
其中,将原始句子输入Macbert模块得到原始句子中每个位置的检错概率,对应汉字表中每个字位于对应位置的第一概率组,以及每个位置对应的隐状态输出;
通过字形编码和拼音编码模块将原始句子分别进行字形编码和拼音编码得到初始字形编码和初始拼音编码,将初始字形编码和初始拼音编码分别进行全连接和激活函数得到字形编码和拼音编码;
通过输出融合模块将字形编码和拼音编码分别与对应位置的隐状态输出进行点乘,将点乘结果分配权重后相加,将相加的结果与对应位置的隐状态输出进行残差连接,将残差连接结果通过全连接层得到对应汉字表中每个字位于对应位置的第二概率组;
当第一概率组中最大的概率值满足概率分数阈值时,则将第二概率组中最大的概率值对应的字作为最终纠正字;
当第一概率组中最大的概率值不满足概率分数阈值时,则从原始句子中每个位置对应的第一概率组中筛选概率值排名TOPK的概率,通过筛选出的TOPK的概率对应的字与对应位置的原始字构建对应位置的候选字集;
获得二分类模型,将原始句子中每个位置的候选字集对应的候选排序特征分别输入二分类模型,获得每个位置对应的多个候选字的二分类结果,当原始句子中特定位置对应的每个候选字的二分类结果均为0时,则所述特定位置的最终纠正字为对应的第二概率组中最大的概率值对应的字;
当原始句子中特定位置对应的每个候选字预测值至少一个不为0时,则将二分类结果为1且二分类预测概率最大的候选字作为最终纠正字。
2.根据权利要求1所述的中文拼写纠错方法,其特征在于,将训练样本的原始句子输入VGG19网络,通过VGG19网络的倒数第二个全连接层得到初始字形编码。
3.根据权利要求1所述的中文拼写纠错方法,其特征在于,通过拼音编码模块将原始句子进行拼音编码得到初始拼音编码,包括:
获取训练样本中原始句子每个字的拼音和音调,将所述原始句子的每个字的拼音和音调通过拼音与向量表示的映射关系得到对应的下标向量,所述下标向量由数字下标组成,每个字的下标向量的维度相同;
将每个字的下标向量依次通过GRU层和池化层进行维度变换得到原始句子的初始拼音编码。
4.根据权利要求3所述的中文拼写纠错方法,其特征在于,所述拼音与向量表示的映射关系的构建方法,包括:
将声母和韵母由26个英文字符表示,通过“1”、“2”、“3”、“4”表示声调的一声、二声、三声、四声,将“0”用来填充,“5”表示未使用,共计32个字符,每个字符对应0-31的数字下标,每个字对应一个设定维数的下标向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310311640.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小区智能型充电桩
- 下一篇:一种光学消杀腔