[发明专利]文本处理方法、装置、计算机设备和存储介质在审
申请号: | 201910918594.7 | 申请日: | 2019-09-26 |
公开(公告)号: | CN112560444A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 朱元卿 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 胡明强 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取待处理的文本集合,从文本集合中选取文本进行比对,其中,每次选取两个文本进行比对,在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度,当标题相似度大于预设第一阈值、且正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。基于标题相似度和正文相似度两个方面对两个文本是否相似进行判定,这样可以提高文本相似判定的准确度。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展与广泛传播,数据呈爆炸式增长。数据分析师工作时,需要阅读大量文本。这些文本爬取于网络,而对于同样的事情,不同人有不同的描述方法。因此,这些文本中,有些文本之间仅有一些词语不同,但是内容是相似的。而阅读文本时,大量相似但不相同的内容给用户造成时间和精力的损耗。
因此,需要对杂乱的海量文本基于相似度进行排序,以节省用户的时间,从而提高阅读效率。而传统的文本处理方法,一般通过人工快速粗略阅读文本进行相似判别,存在文本相似判定准确度低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确度的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取待处理的文本集合;
从所述文本集合中选取文本进行比对,其中,每次选取两个文本进行比对;
在当前选取的两个文本携带标题文本的情况下,获取当前选取的两个文本中标题文本之间的标题相似度以及当前选取的两个文本中正文文本之间的正文相似度;
当所述标题相似度大于预设第一阈值、且所述正文相似度大于预设第二阈值时,判定当前选取的两个文本相似。
在一个实施例中,所述方法还包括:
在当前选取的两个文本未携带标题文本的情况下,获取当前选取的两个文本中正文文本之间的正文相似度,当所述正文相似度大于预设第三阈值时,判定当前选取的两个文本相似;
将相似的文本标记为同一类别的文本。
在一个实施例中,所述获取当前选取的两个文本中标题文本之间的标题相似度,包括:
对对待处理的文本集合中的标题文本进行分词处理,根据分词处理结果构建词语字典;
根据所述词语字典以及预设的编码方式对每个标题文本构建对应的向量,将各个标题文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个标题文本之间的标题相似度。
在一个实施例中,所述获取当前选择的两个文本中正文文本之间的正文相似度,包括:
对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典;
根据所述关键词字典以及预设的编码方式对每个正文文本构建对应的向量,将各个正文文本对应的向量拼接为矩阵;
采用余弦相似度对所述矩阵进行计算,得到相似度矩阵,根据所述相似度矩阵获得两个正文文本之间的正文相似度。
在一个实施例中,所述对所述待处理的文本集合中的正文文本进行关键词提取,基于提取的关键词构建关键词字典包括:
对所述待处理的文本集合中每个文本对应的正文文本进行分句处理,获得多个语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910918594.7/2.html,转载请声明来源钻瓜专利网。