[发明专利]一种文本处理方法、装置、设备以及存储介质在审

专利信息
申请号: 202110650283.4 申请日: 2021-06-10
公开(公告)号: CN113361260A 公开(公告)日: 2021-09-07
发明(设计)人: 李近朱;陈维识 申请(专利权)人: 北京字节跳动网络技术有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F40/221;G06F40/289;G06F40/30;G06N3/08
代理公司: 北京中知法苑知识产权代理有限公司 11226 代理人: 李明
地址: 100041 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 处理 方法 装置 设备 以及 存储 介质
【说明书】:

本公开提供了一种文本处理方法、装置、设备以及存储介质,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。

技术领域

本公开涉及自然语言处理领域,具体而言,涉及一种文本处理方法、装置、设备以及存储介质。

背景技术

在自然语言处理领域,在获取文本进行分析时,经常会遇到因系统差异,文章转码后的格式差异,以及书写者为使文章内容更加具有层次性和美观性,在文章中添加大量段落分割符作为段落划分的依据等原因使得文本中段落过多的问题。

文本分析模型经常会根据文本中的段落分割符作为段落分割的依据来对文本数据进行分析,因此,过多的段落分割符会导致产生过多的段落,同时也会增加文本分析模型的计算量,并降低文本分析模型的运行速度和处理文本的效率。

发明内容

本公开实施例至少提供一种文本处理方法及装置、设备以及存储介质,可以解决以上问题中的至少一种。

本公开实施例提供了一种文本处理方法,所述方法包括:

确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不同段落;

确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;

将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;

若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。

一种可选的实施方式中,所述确定待处理文本中的至少一组待合并语句,包括:

获取待处理文本的文本数据;

根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;

按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于第一语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;

将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。

一种可选的实施方式中,所述确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量,包括:

获取针对所述待处理文本的分词方式;

按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;

根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的的第一语句向量;

根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。

一种可选的实施方式中,所述将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110650283.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top