[发明专利]文本处理方法及装置在审

专利信息
申请号: 201911335070.1 申请日: 2019-12-23
公开(公告)号: CN113095072A 公开(公告)日: 2021-07-09
发明(设计)人: 刘杰;祝官文 申请(专利权)人: 华为技术有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F16/35;G06N3/04;G06N3/08
代理公司: 北京龙双利达知识产权代理有限公司 11329 代理人: 张振;王君
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置
【说明书】:

本申请公开了人工智能领域中自然语言处理领域的文本处理方法以及装置,该方法包括:获取待处理文本;对待处理文本进行检错处理,得到待处理文本中的非词;若待处理文本中的非词属于第一类非词,则不对待处理文本中的非词进行校正;若待处理文本中的非词属于第二类非词、第三类非词或第四类非词,选择与待处理文本中的非词的类别匹配的校正方式对待处理文本中的非词进行校正,得到所述待处理文本中的非词的校正结果。本申请的技术方案能够对多种类型的字符串进行检测和过滤,提高了文本纠错的准确率。

技术领域

本申请涉及自然语言处理领域,并且更具体地,涉及一种文本处理方法及装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。

文本纠错(text error correction)是对原始文本进行错误检测(errordetection),并根据自然语言处理技术对错误进行纠正。目前,通常有两种方法可以实现文本纠错。一种是基于字典判断输入的查询词是否正确,实现错词的检测,然后对错词进行纠正。另一种是通过语言模型对上下文语义信息进行提取,对错词进行纠正。在原始文本中可能包括多种类型的字符,上述方法均只能对单一类型的字符进行检查和纠正,导致纠错准确率降低。

发明内容

本申请提供一种文本处理方法及装置,能够对多种类型的字符进行检测和过滤,提高了文本纠错的准确率。

第一方面,提供了一种文本处理方法,包括:获取待处理文本;对待处理文本进行检错处理,得到待处理文本中的非词;若待处理文本中的非词属于第一类非词,将待处理文本中的非词作为待处理文本中的非词的校正结果;若待处理文本中的非词属于第二类非词、第三类非词或第四类非词,选择与待处理文本中的非词的类别匹配的校正方式对待处理文本中的非词进行校正,得到待处理文本中的非词的校正结果。其中,第一类非词包括全大写字母非词、字长在预设字长范围内的非词和属于第一预设词库的非词,第二类非词包括合并错误非词,第三类非词包括包含非字母的字符的非词,第四类非词包括除第一类非词、第二类非词、第三类非词之外的其他非词。

待处理文本可以是光学字符识别(optical character recognition,OCR)输出文本,或者,可以是用户输入的文本。例如,用户输入的文本可以包括社交网络中发布的内容,或者可以是搜索引擎的搜索框中输入的内容等。应理解,待处理文本可以是任意需要进行纠错的文本,本申请对待处理文本的具体形式不做限定。

可以基于第二预设词库对待处理文本进行非词错误检测,得到待处理文本中的非词。非词指的是不存在于第二预设词库中的词。第一预设词库与第二预设词库不同。

应理解,能够用于检测非词错误的词库均可以理解为第二预设词库。例如,在方法500应用于英文文本纠错的情况下,第二预设词库可以为英文词库。非词即为不存在于英文词库的词,例如,werld。

在本申请的实施例中,能够对待处理文本中的多种类型的字符分别进行检测以及分别进行处理,降低了多种类型的字符对纠错过程的干扰,提升了文本纠错的准确率,提高了纠错方法对输入文本的鲁棒性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911335070.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top