[发明专利]文本处理方法、装置、计算机设备和存储介质有效

专利信息
申请号: 202011574328.6 申请日: 2020-12-28
公开(公告)号: CN112287669B 公开(公告)日: 2021-05-25
发明(设计)人: 郑哲;李松如;张秋实;刘云峰 申请(专利权)人: 深圳追一科技有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284;G06F40/295
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 陈小娜
地址: 518051 广东省深圳市南山区粤海街道*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。采用本方法能够提高文本识别模型的识别准确度。

技术领域

本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的发展,在很多情况下都需要进行文本识别,例如识别文本所对应的意图或者对文本进行翻译等。

传统技术中,在训练文本识别模型时,可以获取训练文本,通过训练文本以及对应的标签训练文本识别模型,得到文本识别模型之后,可以基于文本识别模型对文本进行文本识别,然而经常出现训练得到的文本识别模型的准确度比较低的问题。

发明内容

基于此,有必要针对上述技术问题,提供一种文本处理方法、装置、计算机设备和存储介质。

一种文本处理方法,所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。

在一些实施例中,所述若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。

在一些实施例中,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。

在一些实施例中,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。

在一些实施例中,所述统计值包括均值以及标准差,所述根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,各个维度对应的向量值组成所述统计词向量包括:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。

在一些实施例中,得到所述目标系数的步骤包括:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量确定所述目标系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011574328.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top