[发明专利]文本处理方法及装置在审

专利信息
申请号: 201911335094.7 申请日: 2019-12-23
公开(公告)号: CN113095066A 公开(公告)日: 2021-07-09
发明(设计)人: 祝官文;刘杰 申请(专利权)人: 华为技术有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F40/284;G06F40/242;G06F16/33;G06N3/04;G06N3/08
代理公司: 北京龙双利达知识产权代理有限公司 11329 代理人: 张振;王君
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置
【说明书】:

本申请公开了人工智能领域中自然语言处理领域的文本处理方法以及装置,该方法包括:获取待处理文本;对待处理文本进行检错处理,得到待处理文本中的错词;根据预先存储的错词候选词词库确定错词对应的候选词集;在错词对应的候选词集中确定错词对应的目标候选词;根据错词对应的目标候选词对错词进行校正。本申请的技术方案能够提高候选词的生成速度,降低了文本纠错的时间消耗。

技术领域

本申请涉及自然语言处理领域,并且更具体地,涉及一种文本处理方法及装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。

文本纠错(text error correction)是对原始文本进行错误检测(errordetection),并根据自然语言处理技术对错误进行纠正。目前,通常有两种方法可以实现文本纠错。一种是基于字典判断输入的查询词是否正确,检测出错词,并生成错词对应的候选词,利用候选词对错词进行纠正。另一种是通过语言模型对上下文语义信息进行提取,检测出错词,并生成错词对应的候选词,利用候选词对错词进行纠正。上述方法均耗时较长,对设备的计算能力或者通讯时延的要求较高,很大程度上影响了文本纠错端到端的快速实现。

发明内容

本申请提供一种文本处理方法及装置,能够提高候选词的生成速度,降低了文本纠错的时间消耗。

第一方面,提供了一种文本处理方法,包括:获取待处理文本;对待处理文本进行检错处理,得到待处理文本中的错词;根据预先存储的错词候选词词库确定错词对应的候选词集,错词候选词词库用于指示多个错词对应的候选词集;在错词对应的候选词集中确定错词对应的目标候选词;根据错词对应的目标候选词对错词进行校正。

待处理文本可以是光学字符识别(optical character recognition,OCR)输出文本,或者,可以是用户输入的文本。例如,用户输入的文本可以包括社交网络中发布的内容,或者可以是搜索引擎的搜索框中输入的内容等。应理解,待处理文本可以是任意需要进行纠错的文本,本申请对待处理文本的具体形式不做限定。

可选地,错词可以包括非词。具体地,可以基于第一预设词库对待处理文本进行非词错误检测,得到待处理文本中的非词。非词指的是不存在于第一预设词库中的词。

应理解,能够用于检测非词错误的词库均可以理解为第一预设词库。例如,在方法500应用于英文文本纠错的情况下,第一预设词库可以为英文字典。非词即为不存在于英文字典的词,例如,werld。

可选地,错词可以包括错误真词。具体地,可以基于语言模型对待处理文本进行真词错误检测,得到待处理文本中的错误真词。

例如,该语言模型可以为统计语言模型。再如,该语言模型也可以为神经网络模型。

应理解,错词可以仅包括非词,也可以仅包括错误真词,还可以包括非词和错误真词。检错处理可以包括检测非词错误,也可以包括检测真词错误,还可以既包括检测非词错误,也包括检测真词错误。

根据预先存储的错词候选词词库生成错词对应的候选词集中的候选词可以为一个,也可以为多个。

该错词候选词词库可以是离线生成的错词候选词词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911335094.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top