[发明专利]文本处理方法、装置、计算机设备和存储介质在审

申请号：	201910918594.7	申请日：	2019-09-26
公开（公告）号：	CN112560444A	公开（公告）日：	2021-03-26
发明（设计）人：	朱元卿	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/289;G06K9/62
代理公司：	北京华进京联知识产权代理有限公司 11606	代理人：	胡明强
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，特别是涉及一种文本处理方法、装置、计算机设备和存储介质。一个实施例中的方法包括：获取待处理的文本集合，从文本集合中选取文本进行比对，其中，每次选取两个文本进行比对，在当前选取的两个文本携带标题文本的情况下，获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度，当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时，判定当前选取的两个文本相似。基于标题相似度和正文相似度两个方面对两个文本是否相似进行判定，这样可以提高文本相似判定的准确度。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展与广泛传播，数据呈爆炸式增长。数据分析师工作时，需要阅读大量文本。这些文本爬取于网络，而对于同样的事情，不同人有不同的描述方法。因此，这些文本中，有些文本之间仅有一些词语不同，但是内容是相似的。而阅读文本时，大量相似但不相同的内容给用户造成时间和精力的损耗。

因此，需要对杂乱的海量文本基于相似度进行排序，以节省用户的时间，从而提高阅读效率。而传统的文本处理方法，一般通过人工快速粗略阅读文本进行相似判别，存在文本相似判定准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确度的文本处理方法、装置、计算机设备和存储介质。

一种文本处理方法，所述方法包括：

获取待处理的文本集合；

从所述文本集合中选取文本进行比对，其中，每次选取两个文本进行比对；

在当前选取的两个文本携带标题文本的情况下，获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度；

当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时，判定当前选取的两个文本相似。