[发明专利]文本处理方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202010463654.3 | 申请日: | 2020-05-27 |
公开(公告)号: | CN113743092A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 包祖贻;李辰;王睿 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 刘真 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文本处理方法,包括:
获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵;
对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,并基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵;
对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。
2.根据权利要求1所述的方法,所述获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵,被实施为:
获取文本对象;
对于所述文本对象进行字分割得到字集合;
对于所述字集合进行向量化矩阵映射,得到与所述文本对象对应的向量化矩阵,其中,所述向量化矩阵的维度为n*d,n为字集合中字的数量,d为预设向量化维度。
3.根据权利要求2所述的方法,所述对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,被实施为:
确定上下文特征提取模型;
利用所述上下文特征提取模型提取所述向量化矩阵的上下文特征,得到第一特征矩阵,其中,所述第一特征矩阵的维度为n*h1,n为字集合中字的数量,h1为所述上下文特征提取模型的预设输出维度。
4.根据权利要求2或3所述的方法,所述基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵,被实施为:
确定拼写检查模型;
将所述第一特征矩阵作为所述拼写检查模型的输入进行计算,得到拼写检查概率矩阵,其中,所述拼写检查概率矩阵的维度为n*r,n为字集合中字的数量,r为拼写检查结果类别的数量。
5.根据权利要求2或3所述的方法,所述对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,被实施为:
确定拼写处理特征提取模型;
利用所述拼写处理特征提取模型提取所述第一特征矩阵的拼写处理特征,得到第二特征矩阵,其中,所述第二特征矩阵的维度为n*h2,n为字集合中字的数量,h2为所述拼写处理特征提取模型的预设输出维度。
6.根据权利要求2或3所述的方法,所述基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果,被实施为:
确定预设词表和处理候选概率计算模型,其中,所述预设词表至少包括所述字集合;
将所述第二特征矩阵作为所述处理候选概率计算模型的输入进行计算,得到处理候选概率矩阵,其中,所述处理候选概率矩阵用于表示所述字集合中的字在所述预设词表中的对应校正候选概率,所述处理候选概率矩阵的维度为n*V,n为字集合中字的数量,V为所述预设词表中字的数量;
基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。
7.根据权利要求6所述的方法,所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果;
所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果,被实施为:
基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵;
将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵;
将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵;
将所述第一文本对象处理概率矩阵与第二文本对象处理概率矩阵相加,得到文本对象处理概率矩阵,其中,所述文本对象处理概率矩阵的行向量分别顺序对应所述预设词表中字的处理概率;
将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463654.3/1.html,转载请声明来源钻瓜专利网。