[发明专利]词句的纠错方法、装置、可读存储介质和计算机程序产品在审
申请号: | 202211071072.6 | 申请日: | 2022-09-02 |
公开(公告)号: | CN115358217A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 刘烨;陈戈;高峰 | 申请(专利权)人: | 美的集团(上海)有限公司;美的集团股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216;G06F40/226 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 王丹玉;尚志峰 |
地址: | 201702 上海市青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词句 纠错 方法 装置 可读 存储 介质 计算机 程序 产品 | ||
本申请提供了一种词句的纠错方法、装置、可读存储介质和计算机程序产品。词句的纠错方法,包括:获取待纠错文本数据,其中,待纠错文本数据包括词句序列;根据待纠错文本数据和目标纠错模型,确定词句序列对应的错误类型,其中,目标纠错模型用于识别错误文本的错误类型,并基于错误类型对错误文本进行纠错处理;根据错误类型、待纠错文本数据和目标纠错模型,对词句序列进行对应的纠错处理。
技术领域
本申请涉及文字纠错技术领域,具体而言,涉及一种词句的纠错方法、装置、可读存储介质和计算机程序产品。
背景技术
在相关技术中,由于输入法联想功能限制,以及输入人员的操作准确率,经常会导致输入的词句文本中包含错字、别字、多字或少字等错误,在一些严肃场景下,如医疗场景,这些错误可能会造成严重后果。
目前的文本自动纠错功能较为原始,一般依赖于将输入的文本与词库进行比对,将不在词库中的词句标记出来后,仍需人工进行核实修改,效率低且人工成本高。
发明内容
本申请旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本申请的第一方面提出一种词句的纠错方法。
本申请的第二方面提出一种词句的纠错装置。
本申请的第三方面提出另一种词句的纠错装置。
本申请的第四方面提出一种可读存储介质。
本申请的第五方面提出一种计算机程序产品。
有鉴于此,本申请的第一方面提供了一种词句的纠错方法,包括:
获取待纠错文本数据,其中,待纠错文本数据包括词句序列;
根据待纠错文本数据和目标纠错模型,确定词句序列对应的错误类型;
根据错误类型、待纠错文本数据和目标纠错模型,对词句序列进行对应的纠错处理。
本申请的第二方面提供了一种词句的纠错装置,包括:
获取模块,用于获取待纠错文本数据,其中,待纠错文本数据包括词句序列;
确定模块,用于根据待纠错文本数据和目标纠错模型,确定词句序列对应的错误类型;
处理模块,用于根据错误类型、待纠错文本数据和目标纠错模型,对词句序列进行对应的纠错处理。
本申请的第三方面提供了另一种词句的纠错装置,包括:
存储器,用于存储程序或指令;
处理器,用于执行程序或指令时实现如第一方面提供的词句的纠错方法的步骤。
本申请的第四方面提供了一种可读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如第一方面提供的词句的纠错方法的步骤。
本申请的第五方面提供了一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面提供的词句的纠错方法的步骤。
在本申请实施例中,待纠错文本数据,可以是用户输入的一段文字,也可以是一个文档,或文档中的部分语句或段落等。待纠错文本数据中包括至少一个词句序列,该词句序列中包括多个文字或词组,能够理解的是,一个词句序列可以是一个自然句,也可以是一个自然段落。
通过预先训练好的目标纠错模型,对待纠错文本数据进行处理。具体地,目标纠错模型是错误检测联合错误纠正的深度神经网络,将待纠错文本中的词句序列输入至目标纠错模型后,词句序列中的每个字符,经过嵌入层(embedding层)的处理后,得到多维向量,如512维的向量。再经过Transformer的Encoder层后,得到对应的512维的编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团(上海)有限公司;美的集团股份有限公司,未经美的集团(上海)有限公司;美的集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211071072.6/2.html,转载请声明来源钻瓜专利网。