[发明专利]文本的纠错方法、装置、终端、及存储介质有效

专利信息
申请号: 202010308062.4 申请日: 2020-04-17
公开(公告)号: CN111539199B 公开(公告)日: 2023-08-18
发明(设计)人: 郭晗暄;单彦会;李娜;郑文彬;罗红 申请(专利权)人: 中移(杭州)信息技术有限公司;中国移动通信集团有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F40/289;G06F40/30;G06F40/58;G10L15/26;G10L15/04;G10L15/16;G10L15/02;G10L15/22;G06N3/044;G06N3/0455;G06N3/088
代理公司: 上海晨皓知识产权代理事务所(普通合伙) 31260 代理人: 成丽杰
地址: 310011 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例涉及人工智能领域,公开了一种文本的纠错方法、装置、终端、及计算机可读存储介质。本发明中,所述文本的纠错方法,包括:获取待纠错句子;将所述待纠错句子转换为句子向量;将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;将所述纠错后句子的句子向量转换为纠错后句子。本发明实施例能够减少人工维护的工作量,从而减少处理成本。
搜索关键词: 文本 纠错 方法 装置 终端 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团有限公司,未经中移(杭州)信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010308062.4/,转载请声明来源钻瓜专利网。

同类专利
  • 一种面向任务式对话系统的纠错方法、装置、设备及介质-202310948251.1
  • 海金涛;陆韬宇;单权强 - 中移(杭州)信息技术有限公司;中国移动通信集团有限公司
  • 2023-07-28 - 2023-10-27 - G06F40/232
  • 本申请涉及自然语言处理领域,提供一种面向任务式对话系统的纠错方法、装置、设备及介质。所述方法包括:获取用户文本,将用户文本输入多任务语义理解模型,得到识别结果;根据识别结果获取槽位词表数据,将槽位词表数据同步到纠错数据库中;根据槽位词表数据的字数对阈值进行动态调整,得到调整后的阈值;基于纠错数据库和调整后的阈值对槽位词表数据中的数据进行实体纠错,确定不同纠错阶段的召回分数;对不同纠错阶段的召回分数进行加权处理,得到计算结果;确定计算结果中分值最大的词组作为纠错结果,基于纠错结果进行召回。本申请提供的面向任务式对话系统的纠错方法可以解决NLP模型命中率低、ASR识别有误的问题。
  • 文本检错方法、装置、存储介质、电子设备及产品-202310106642.9
  • 张可;张伟;黄泽谦 - 腾讯科技(深圳)有限公司
  • 2023-02-03 - 2023-10-27 - G06F40/232
  • 本申请的实施例公开了一种文本检错方法、装置、存储介质、电子设备及产品,相关实施例可应用于人工智能等各种场景。该文本检错方法通过获取待检测文本与混淆文本集合,将混淆文本集合中的混淆文本和待检测文本进行文本匹配,得到与待检测文本相匹配的目标混淆文本,然后基于目标混淆文本对待检测文本进行标签标注,得到待检测文本对应的标注结果,对标注结果和待检测文本进行编码处理,并基于编码结果得到待检测文本对应的文本检错结果,以结合待检测文本本身的文本特征信息以及标注结果表征的混淆文本匹配信息,识别出待检测文本中实际存在混淆的文本信息,提高文本检错结果的准确度。
  • 文本纠错网络的训练方法以及文本纠错方法-202310072225.7
  • 彭浩源 - 腾讯科技(深圳)有限公司
  • 2023-01-13 - 2023-10-27 - G06F40/232
  • 本申请涉及文本纠错网络的训练方法以及文本纠错方法。上述方法包括获取多个样本对;以混淆文本样本为输入,利用预设网络确定混淆文本样本对应的文本特征;利用预设网络基于文本特征预测隐变量;利用预设网络基于文本特征和隐变量确定混淆文本样本对应的纠错结果;基于纠错结果、标准文本样本、隐变量、隐变量标注对预设网络进行训练,得到文本纠错网络。本申请在训练过程中引入了隐变量,隐变量关注于混淆文本样本中文本片段的理想替换结果的个性信息,由此训练获得的文本纠错网络的文本纠错效果更好。本申请实施例可应用于云技术、人工智能、智慧交通、智慧娱乐等各种场景。
  • 一种文本纠错模型的训练方法、文本纠错方法及装置-202310037496.9
  • 江旺杰;黄予 - 腾讯云计算(长沙)有限责任公司
  • 2023-01-10 - 2023-10-27 - G06F40/232
  • 本申请提供了一种文本纠错模型的训练方法、文本纠错方法及装置,涉及计算机技术领域,可以应用于自然语言处理、机器学习、人工智能等场景,通过将文字的拼音划分为多个拼音要素维度对应的多个部分,可以建模细粒度的文字拼音特征,使得在文字纠正任务之外引入多个细粒度拼音预测辅助任务,能够使得文字纠正网络学习到细粒度的文字读音特征,可以提高基于文字纠正网络得到的文本纠错模型的性能。通过将文字的拼音划分为多个拼音要素维度对应的多个部分,并计算两个文字在多个部分的拼音重合程度来辅助进行错别字纠错,可以提高文本纠错的准确率。
  • 标点纠错方法、系统、模型训练方法、介质及电子设备-202311212063.9
  • 于凯 - 北京蜜度信息技术有限公司
  • 2023-09-20 - 2023-10-27 - G06F40/232
  • 本申请提供一种标点纠错方法、系统、模型训练方法、介质及电子设备,所述模型训练方法包括将待纠错文本输入标点纠错模型以获取纠错主任务预测概率矩阵与情感辅助任务预测概率矩阵;基于所述纠错主任务预测概率矩阵和所述情感辅助任务预测概率矩阵获取标点纠错预测文本;基于所述待纠错文本和所述标点纠错预测文本对标点纠错模型进行训练以获取训练好的标点纠错模型。本申请扩充词表中的未知中文标点,减少了对出现频率较低的文本标点的误判,同时增加情感判断辅助任务,利用情感判断参数,解决现有文本标点纠错模型对语气词判断能力较差,出现误判的问题。
  • 一种融合语义与字音的智能纠错方法及装置-202310862209.8
  • 麦淼;李梓华;王梦环;罗小龙 - 广东南方智媒科技有限公司
  • 2023-07-13 - 2023-10-27 - G06F40/232
  • 本发明涉及智能纠错技术领域,公开了一种融合语义与字音的智能纠错方法及装置。该方法先将待测文本划分成若干个待测句子,待测文本对应的若干个待测句子先后利用融合了语义和字音特征的纠错模型和错别字动态识别法得出待纠错字符和纠正字符的字符组合,通过字符组合进行去重过滤,以及去重后字符组合的纠错概率大小,确定待测文本的最终纠错结果。本发明有效地缩短了待纠错文本的内容长度,可以加快纠错效率;优化了同音字的校对能力,提高纠错的正确率和效率。
  • 口语信息处理方法、装置和电子设备-202011461385.3
  • 林雨;蒙嘉颖;吴培昊 - 北京有竹居网络技术有限公司
  • 2020-12-08 - 2023-10-27 - G06F40/232
  • 本公开实施例公开了一种口语信息处理方法、装置和电子设备。该方法的一具体实施方式包括:确定初始口语信息中各个单词对应的词干,并基于各个单词对应的词干得到与初始口语信息对应的初始口语词干向量;根据初始口语信息对应的初始口语向量和初始口语词干向量,确定与初始口语信息中各个单词对应的标签;标签至少包括:顺滑、非顺滑;根据各个单词对应的标签处理初始口语信息,得到顺滑的目标口语信息。能够基于初始口语向量和初始口语词干向量处理初始口语信息,利于初始口语信息的去重处理,得到顺滑的目标口语信息。
  • 一种检索文本纠错方法、装置、计算机设备及存储介质-202310853261.7
  • 孙迎雪;赵骥;沈奇;李祥歌 - 深圳依时货拉拉科技有限公司
  • 2023-07-12 - 2023-10-24 - G06F40/232
  • 本申请提出了一种检索文本纠错方法、装置、计算机设备及存储介质,其中方法包括:获取待检索文本后进行数据清洗处理;基于困惑集对待检索文本逐步向后分别进行一元分词的字替换和二元分词的词替换,得到多个候选替换词集合;基于HMM城市纠错模型计算每次替换后得到的候选替换词集合对应的模型得分;按照模型得分从高到低的顺序对候选替换词集合进行排序,选取排序靠前的候选替换词集合作为纠错后的检索文本。本申请通过困惑集对待检索文本进行字替换和词替换,并根据HMM城市纠错模型计算候选替换词集合的得分,最终将得分高的候选替换词集合作为纠错后的检索文本,从而能够快速纠正检索文本,提高用户检索体验,进而提高用户发单率。
  • 纠错方法、装置、设备、可读存储介质及车辆-202211636718.0
  • 黄海涛 - 北京罗克维尔斯科技有限公司
  • 2022-12-15 - 2023-10-24 - G06F40/232
  • 本申请公开了一种纠错方法、装置、设备、可读存储介质及车辆,其中方法包括:接收第一输入,第一输入用于输入第一信息;若从预设问答库中未获取到第一信息对应的响应信息,则对第一信息进行语义分析,获取第一信息中的至少一个实体;计算预获取的知识图谱中第一目标实体与知识图谱中除第一目标实体之外的各个预设实体的语义相似度,并获取语义相似度最大的预设实体,第一目标实体为至少一个实体中的任意一个实体,知识图谱包括多个预设实体;基于获得的预设实体,对第一信息中的第一目标实体进行纠正,获得目标信息。上述方式,充分考虑到了知识图谱中第一目标实体与各个预设实体之间的语义关联性,可提高文本纠正的准确性。
  • 文本纠错方法、装置、设备及存储介质-202110873540.0
  • 李帅 - 平安科技(深圳)有限公司
  • 2021-07-30 - 2023-10-24 - G06F40/232
  • 本发明涉及数据分析领域,公开了一种文本纠错方法、装置、设备及存储介质,该方法包括:对待纠错文本进行分词处理,得到命名实体集;将命名实体集中输入至预设的卷积神经网络中进行领域识别,确定命名实体集中各命名实体的垂直领域及类型;从领域知识图谱集中选取领域知识图谱和候选实体;计算命名实体与候选实体的匹配度,并根据匹配度生成修正集合;从修正集合中选取候选实体,对待纠错文本进行修正,得到修正文本。本发明通过调用领域知识图谱,选取候选实体,对待纠错文本中出现的错误进行针对性的修正,从而提高了纠错效率和准确度。此外,本发明还涉及区块链技术,待纠错文本和修正文本可存储于区块链中。
  • 一种中文拼写检查方法及装置-202310653900.5
  • 苏锦钿;林晓彬 - 华南理工大学
  • 2023-06-02 - 2023-10-20 - G06F40/232
  • 本发明公开了一种中文拼写检查方法及装置,属于文字检错领域。其中方法包括:获取中文文本序列,将中文文本序列转换为X;将X进行字符向量建模,获得初始隐含向量HB;将HB进行推理任务,获得X中错别字的位置Perror(X),获取Perror(X)对应的推理结果中最优的前K个字符TopK(X);将X、TopK(X)和Perror(X)输入到混淆字符知识抽取模块进行融合混淆字符知识的字符向量建模,获得混淆隐含向量Hc;将Hc和HB进行加权合并,获得联合隐含向量H;将H进行推理任务,获得最终预测结果Y′,并获得损失值。本发明能够仅针对可能的错别字抽取对应的混淆字符相似性知识,并将其自适应地融合到预训练语言模型拟合的语义表征中,在中文拼写检查任务中取得更好的效果。
  • 一种中文拼写检查方法、装置及存储介质-202310654175.3
  • 苏锦钿;林晓彬 - 华南理工大学
  • 2023-06-02 - 2023-10-20 - G06F40/232
  • 本发明公开了一种中文拼写检查方法、装置及存储介质,属于文字检错领域。其中方法包括:获取中文文本序列,根据BERT分词器和BERT嵌入模块,将中文文本序列转换为字符嵌入E;将字符嵌入E输入到包含浅层字符表征融合机制的BERT编码器模块进行字符向量建模,获得初始隐含向量H;将字符嵌入E和初始隐含向量H输入到CNN局部语义抽取模块进行字符的局部语义向量建模,获得局部语义隐含向量H′;将局部语义隐含向量H′和初始隐含向量H相加的结果输入到推理模块进行推理任务,获得预测结果Y,并获得损失值。本发明能够充分学习和利用字符的所属特征,并建立错别字和上下文的局部语义表征,在原本的中文拼写检查任务中取得更好的效果。
  • 融合发音特征的越南语语音识别文本纠错方法及系统-202311040757.9
  • 余正涛;杨尚龙;王文君;董凌;孙童 - 昆明理工大学
  • 2023-08-18 - 2023-10-20 - G06F40/232
  • 本发明涉及融合发音特征的越南语语音识别文本纠错方法及系统,属于自然语言处理技术领域。本发明利用国际音标(IPA)对越南语发音进行表征的方法,并在模型编码阶段通过交叉注意力机制融合对应文本序列的发音特征。由于越南语一个发音对应多种语义的特点,将发音特征融入模型中扩大了搜索空间,提高了模型的错误检测和生成能力。此外,本发明使用基于非自回归结构的解码器,可以并行地生成目标序列中的所有单词,从而极大地降低解码时延。实验结果表明,在同等数据集上,该方法相比通用文本纠错模型实现约1%的词错率降低,同时节省近50%的解码时间消耗。
  • 一种融合局部语义特征和全局语义特征的中文拼写纠错方法-202211740208.8
  • 夏振涛;李艳;朱立烨 - 永中软件股份有限公司
  • 2022-12-30 - 2023-10-20 - G06F40/232
  • 本发明提供一种融合局部语义特征和全局语义特征的中文拼写纠错方法,包括如下步骤:对于文档,经过分句模块,得到句子集合;对于每个句子,通过管道式的纠错模型和端到端的纠错模型得到纠错建议;为了防止把正确的字词错误纠正,通过误纠过滤模块得到纠错建议;最后再把端到端纠错模型和管道式纠错模型输出通过模型融合模块得到最终输出的正确句子和正确文档。本发明具有纠错范围广、纠错精准度高等优点。
  • 一种轻量化的文本纠错方法及装置-202310878929.3
  • 韩亚;刘学谦;马延美 - 北京方寸无忧科技发展有限公司
  • 2023-07-18 - 2023-10-13 - G06F40/232
  • 本申请公开了一种轻量化的文本纠错方法及装置。所述轻量化的文本纠错方法包括:获取待纠错文本;获取待纠错文本中的错误token;获取候选集,其包括用于替换错误token的可替换token;获取经过训练的困惑度模型,其通过第一掩码策略训练而成;将候选集中的每个可替换token替换待纠错文本中对应的错误token从而形成待计算困惑度文本;将文本输入至经过训练的困惑度模型,从而通过困惑度模型早退推理策略获取困惑度分类结果;根据困惑度计算结果修改所述待纠错文本,从而获取正确文本。本申请使用适当的策略实现困惑度模型推理过程中的早退,并在早退的情况下能保证模型计算的准确性,修改句子困惑度的遍历方式来加速困惑度模型推理,同时降低困惑度模型的内存占用。
  • 彝文文本纠错方法、系统、存储介质及电子设备-202310734194.7
  • 请求不公布姓名 - 上海蜜度信息技术有限公司
  • 2023-06-20 - 2023-10-10 - G06F40/232
  • 本发明提供一种彝文文本纠错方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取彝文文本;基于所述彝文文本构造正确‑错误彝文文本数据集;基于所述正确‑错误彝文文本数据集训练彝文文本纠错模型,以基于训练好的彝文文本纠错模型实现彝文文本纠错。本发明的彝文文本纠错方法、系统、存储介质及电子设备基于BART模型的深度学习算法实现彝文的自动化纠错,快速高效,极具实用性。
  • 一种公证文书自动纠错方法、装置、设备及存储介质-202310817272.X
  • 陈艳;许静 - 法信云(成都)科技有限公司
  • 2023-07-05 - 2023-10-10 - G06F40/232
  • 本申请提供一种公证文书自动纠错方法、装置、设备及存储介质,涉及人工智能技术领域。其中方法包括:获取待纠错的目标公证文书;将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。可见,本申请的公证文书纠错模型是基于seq2seq模型训练得到的,能够将公证文书中的文本错误快速准确地识别和纠正,确保公证文书的准确性和可靠性,实现了对公证文书的智能化纠错,提高了公证文书的纠错效率。
  • 一种基于反向翻译的英文文章自动语法纠错方法-202110841401.X
  • 杨东强;孙晓东 - 山东建筑大学
  • 2021-07-26 - 2023-10-10 - G06F40/232
  • 本发明公开了一种基于反向翻译的英文文章自动语法纠错方法方法,通过分析现有学习者语料的错误类型分布,对常见的错误类型如动词、名词、部分介词、拼写和标点等建立混淆集。首先使用混淆集结合替换规则的方法对单语语料数据进行加噪处理,并将其用于训练基于反向翻译的自动错误生成模型。其次,通过将语法纠正模型产生的中间数据反馈输入到错误生成模型,并进行联合训练。最终通过优化的错误生成模型,输出接近学习者语料库的更高质量的合成训练语料,提高了纠错模型的泛化能力,帮助用户减少语法错误的发生率。
  • 基于深度学习的文本处理模型训练方法、装置及设备-202010301503.8
  • 苗思奇;卢子填;胡荣杰 - 腾讯科技(深圳)有限公司
  • 2020-04-16 - 2023-10-10 - G06F40/232
  • 本申请实施例公开了一种基于深度学习的文本处理模型训练方法、装置及设备,涉及自然语言处理领域。方法包括:调用文本处理模型,对目标文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为目标处理结果;获取目标文本的纠错信息,纠错信息包括对目标处理结果进行纠错后得到的纠错处理结果,目标处理结果与纠错处理结果不同;对多个处理结果的概率进行统计处理,获取目标文本的处理结果分布特征;响应于处理结果分布特征满足目标条件,根据目标文本及纠错处理结果,对文本处理模型进行训练,得到训练后的文本处理模型。在文本处理模型输出的处理结果不准确时继续进行训练,提高了文本处理模型的准确度。
  • 一种基于多模态预训练融合中文拼写纠正技术-202310630599.6
  • 赵铁军;朱聪慧;徐冰;刘梓航;曹海龙;杨沐昀 - 哈尔滨工业大学
  • 2023-05-31 - 2023-10-03 - G06F40/232
  • 一种基于多模态预训练融合中文拼写纠正技术,它涉及一种中文拼写纠正技术。本发明为了解决现有中文拼写错误纠正技术的准确度和发现速度难以满足实际需要的问题。本发明的步骤为:对于输入的中文句子,从数据库中读取每个字的拼音和音调,并加载该字的黑体字体、小篆字体、该字繁体形式的黑体字体作为字音、字形信息;将句子及其对应字的拼音、字体分别映射为向量,再经过不同的编码器和BERT获取同维度的编码表示;对特征做非线性变换和加权和,获取进一步表示;将字的字音字形编码表示和文本编码表示输入门控层,对三种特征表示做加权融合,进而获得中文字的表示;将字的三个模态融合的表示输入BERT。本发明属于自然语言处理技术领域。
  • 一种裁判文书纠错装置以及方法-201811602308.8
  • 黄文惠 - 上海创至计算机科技股份有限公司
  • 2018-12-26 - 2023-10-03 - G06F40/232
  • 本发明公开了一种裁判文书纠错装置以及方法,包括文本纠错装置主体、文本纠错台、活动防护壳、拼接台、错误级别分类器和资料连接台,文本纠错装置主体的后面固定连接有文本纠错台,文本纠错台的正面中间嵌入连接有显示器,文本纠错台的前面底部活动连接有活动防护壳,文本纠错台的底端嵌套连接有拼接台,连接台,体现了本发明的快速拆装性、稳定性与实用性,资料连接台,有效的排除了现有裁判文本纠错装置使用时不能够用一次性大批量的文书纠错的使用方式,体现了本发明的高效性、安防性与实用性,活动防护壳,体现了本发明的保护性与灵活性,错误级别分类器,体现了本发明的实用性,在未来具有广泛的发展前景。
  • 文本纠错处理方法、模型处理方法、装置、设备及介质-202311100345.X
  • 陈东来 - 深圳前海环融联易信息科技服务有限公司
  • 2023-08-30 - 2023-09-29 - G06F40/232
  • 本申请涉及深度学习、自然语言处理技术领域,公开了一种文本纠错处理方法、模型处理方法、装置、设备及介质,用于降低文字识别误判率,方法部分包括:通过目标文本纠错模型的文本纠错模块对识别文本进行文本纠错,得到已纠错文本,目标文本纠错模型通过如下方式训练得到:将训练文本输入到被训练模型的文本纠错模块进行文本纠错处理,得到文本纠错结果;将训练文本输入到被训练模型的错字识别模块进行错字概率识别,得到错字识别结果;根据文本纠错结果和错字识别结果,获取被训练模型的模型总损失;将训练后模型总损失符合预设损失值的被训练模型,作为目标文本纠错模型。
  • 话单的处理方法、装置、设备及计算机存储介质-202210282509.4
  • 马澄博 - 中国移动通信集团安徽有限公司;中国移动通信集团有限公司
  • 2022-03-22 - 2023-09-29 - G06F40/232
  • 本申请实施例提供了一种话单的处理方法、装置、设备及计算机存储介质,该话单的处理方法包括获取目标错误话单的信息,目标错误话单的信息包括错误代码信息;通过聚类算法基于错误代码信息,以及预设错单判断条件确定目标错误话单的目标错单类型;根据目标错单类型,生成目标错单类型对应的文件;根据目标错单类型对应的文件对目标错误话单进行修正,得到修正后的话单信息。根据本申请实施例,可以独立于现有的生产系统,不影响系统稳定性和业务连续性,并且提高了错误话单回收并修正的效率,可以满足大量用户出现计费错误时回收并修正错误话单的需求。
  • 文本纠错方法和装置-201911029376.4
  • 刘恒友;李辰;包祖贻;徐光伟;李林琳 - 阿里巴巴集团控股有限公司
  • 2019-10-28 - 2023-09-29 - G06F40/232
  • 本发明公开了一种文本纠错方法和装置。其中,通过获取所述文本所包含的多个元素;确定所述多个元素中至少一个元素的特征数据;以所述多个元素及所述特征数据为特征,生成所述文本的特征集;基于所述特征集,对所述文本的错误情况进行预测;以及基于预测结果,对所述文本进行纠错。由此,为降低文本误纠率,提升文本纠错质量提供支持。
  • 文本纠错模型训练方法、文本纠错方法、设备及存储介质-202310863192.8
  • 孙俊;田志豪 - 匀熵智能科技(无锡)有限公司
  • 2023-07-14 - 2023-09-26 - G06F40/232
  • 本发明涉及文本纠错技术领域,具体公开了一种文本纠错模型训练方法、文本纠错方法、设备及存储介质,包括:获取训练数据集;对所述训练数据集进行预处理获得输入序列;根据输入序列对初始纠错模型进行训练,获得输入序列中每个字符的预测概率,预测概率表示每个字符被预测为该字符所对应的候选集中其他字符的概率,每个字符均对应一个候选集,候选集包括与所对应的字符具有多模态关联特征的字符的集合;根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本;根据负样本数据集和正样本对初始纠错模型进行优化,获得目标纠错模型。本发明提供的文本纠错模型训练方法能够提高文本纠错的准确度。
  • 基于人工智能的文本纠错方法、装置、设备及存储介质-202310658097.4
  • 孟繁烨 - 平安科技(深圳)有限公司
  • 2023-06-05 - 2023-09-22 - G06F40/232
  • 本申请实施例属于人工智能领域与金融科技领域,涉及一种基于人工智能的文本纠错方法,包括:对开源语料数据进行分句得到句子数据并存储至非关系型数据库;将混淆词词典中的正确词作为关键词;从非关系型数据库中获取包含关键词的句子语料;基于句子语料构建目标句子语料;基于混淆词词典与目标句子语料构建训练数据;基于训练数据对初始文本纠错模型进行训练得到文本纠错模型;基于文本纠错模型对待纠错文本数据进行纠错处理以生成纠错结果。本申请还提供一种基于人工智能的文本纠错装置、计算机设备及存储介质。此外,本申请的文本纠错模型可存储于区块链中。本申请可应用于金融领域的文本纠错场景,能快速准确地对待纠错文本数据进行纠错。
  • 文本纠错方法、装置、电子设备及存储介质-202111093910.5
  • 李骁;赖众程;王亮;高洪喜;许海金;吴鹏召;李会璟;李兴辉;周柱君 - 平安银行股份有限公司
  • 2021-09-17 - 2023-09-22 - G06F40/232
  • 本发明涉及人工智能及数字医疗技术,揭露了一种文本纠错方法,包括:对待处理文本分词,得到分词集,对分词集中的各个分词进行同音词查询,利用查询到的同音词替换对应的分词,得到多个标准文本,分别计算标准文本的困惑度,选择困惑度大于或者等于预设困惑阈值的标准文本为目标文本,利用标准纠错模型对所述目标文执行纠错处理,得到初始纠错结果,利用豁免词典对初始纠错结果进行剔除,得到标准纠错结果。此外,本发明还涉及区块链技术,分词集可存储于区块链的节点。本发明还提出一种文本纠错装置、电子设备以及存储介质。本发明可以提高文本纠错的准确度。
  • 文本纠错方法、装置、电子设备及存储介质-202110740864.7
  • 张睿卿;何中军;李芝;吴华 - 北京百度网讯科技有限公司
  • 2021-06-30 - 2023-09-22 - G06F40/232
  • 本公开公开了文本纠错方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及自然语言处理和深度学习等人工智能技术领域。具体实现方案为:获取待纠错文本,并对待纠错文本进行编码,以获取待纠错文本的第一语义表示;获取待纠错文本所在文档的上下文信息,并根据上下文信息生成文档的关键信息图谱;基于关键信息图谱对第一语义表示进行修正,获取待纠错文本的目标语义表示;根据目标语义表示生成待纠错文本纠错后的目标文本。本公开能够提升文本纠错效率及准确率,进而提升文本纠错效果。
  • 一种基于文字识别的提示方法及电子设备-201910649009.8
  • 蒋小云 - 广东小天才科技有限公司
  • 2019-07-17 - 2023-09-22 - G06F40/232
  • 公开一种基于文字识别的提示方法及电子设备,包括:当电子设备检测到用户在书写页面上书写时,采集书写页面上的书写文字;对书写文字进行分析,得到书写文字对应的若干个文字属性;检测若干个文字属性中是否存在与预设的错误字模型包含的任一错误字属性匹配的文字属性;如果是,确定书写文字为错误书写文字,并根据任一错误字属性输出错误提示信息,以及输出错误提示信息。实施本发明实施例,能够对用户书写错误的文字进行分析,得到用户将文字书写错误的原因,即可以确定错误书写文字中的错误字属性,进而可以根据错误字属性生成错误提示信息,以使用户可以根据错误提示信息对书写错误的文字进行纠正,从而提升纠正文字的错误写法的效果。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top