[发明专利]文本处理方法及装置在审
申请号: | 202210436972.X | 申请日: | 2022-04-19 |
公开(公告)号: | CN114742050A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 李长亮;李小龙;姬子明 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/253 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取待纠错文本;根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。实现了通过规则和模型联合纠错的方式提高纠错精准度,且纠错覆盖范围更广,以解决现有技术中单独采用规则纠错,而导致规则维护困难的问题。
技术领域
本申请涉及人工智能领域的文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述,然后对应的给一个query,机器通过阅读context后,给出对应query的答案)、问答系统(Question AnsweringSystem,QA,是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题)和文本纠错等。
而文本纠错作为一种较为基础的自然语言处理技术,其越来越多的场景中得以应用;纠错校对是一种常见的针对文本进行修正的处理,其主要任务是针对给定的文本内容进行检错和校对,把符合语法的文本以及含有错误字符的文本进行校对。如作业批改、档案存储、论文检查等场景,都会涉及到对文本内容进行纠错,以提高文本内容的质量。现有技术中为提高文本的纠错效率,通常会采用预设的规则实现,在此过程中需要预设大量的规则,不仅无法覆盖全面的纠错场景,还存在灵活度较低的问题,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
获取待纠错文本;
根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本;
将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本。
可选地,所述根据预设的文本检错规则对所述待纠错文本进行处理,获得初始纠错文本,包括:
对所述待纠错文本进行分词处理获得多个词单元,并按照结构检错规则对各个词单元进行处理,获得第一初始纠错文本;和/或,
按照语法检错规则对所述待纠错文本进行处理,获得第二初始纠错文本。
可选地,所述将所述初始纠错文本输入至文本纠错模型进行处理,根据处理结果确定所述待纠错文本对应的目标修正文本,包括:
将所述初始纠错文本输入至所述文本纠错模型;
通过所述文本纠错模型中的检测单元对所述初始纠错文本进行处理,获得中间纠错文本;
通过所述文本纠错模型中的纠错单元对所述中间纠错文本进行处理,获得初始修正文本,并输出所述文本纠错模型;
根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本。
可选地,所述根据所述初始修正文本,将所述初始纠错文本更新为所述目标修正文本,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210436972.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:秸秆畜粪有机肥
- 下一篇:一种基于theta神经节律的注意偏向训练系统和方法