[发明专利]文本的处理方法、装置、设备及存储介质有效

申请号：	201910395287.5	申请日：	2019-05-13
公开（公告）号：	CN110134768B	公开（公告）日：	2023-05-26
发明（设计）人：	赵旸;邱旻峰	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/194
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本的处理方法、装置、设备以及存储介质，涉及互联网领域。该方法包括通过文本的分词集合，确定两两文本之间的相似度；当第相似度大于相似度阈值时，将相似的两个文本对应的文本节点建立连接关系，生成第一树状结构图；从第一树状结构图中确定出第一根节点，将第一根节点对应的文本确定为去重后的文本。该方法通过将相似的文本之间建立连接关系，形成树状结构图；在树状结构图中，通过遍历的技术手段快速的找到树状结构图中的根节点，实现对大量文本的快速去重。

技术领域

本申请涉及互联网领域，特别涉及一种文本的处理方法、装置、设备及存储介质。

背景技术

在存在海量短文本的场景下，上述海量短文本中存在大量的相似文本；由于业务需求，需要对上述大量的相似文本进行过滤处理，输出去重后的文本集合。

对于海量文本的去重，以SimHash算法最具有代表性。SimHash算法是将文本映射为一个01串，相似文本得到的01串是相似的；比较两个文本的01串之间在多少个位置上字符不同，上述字符不同的位置数就是散列(Hashing)距离；当Hashing距离小于或者等于距离阈值时，表示两个文本之间的相似度高，是相似文本，需要做去重处理；当Hashing距离大于距离阈值时，表示两个文本之间的相似度低，是不同的两个文本，不需要做去重处理。

通常，针对长文本进行去重处理时，Hashing距离的距离阈值设置为3；该距离阈值能够准确的度量长文本之间的相似性，且能够极大的降低算法执行的复杂度和时间，取得很好的去重效果。但是，对于短文本，两个相似文本之间的Hashing距离的通常是大于3的，而Hashing距离的距离阈值越大，则算法执行的复杂度越大，相应的，执行的时间也越长；所以，SimHash算法并不能够在满足对短文本的快速去重处理的同时，保证去重的较高准确度。

发明内容

本申请实施例提供了一种文本的处理方法、装置、设备及存储介质，可以解决短文本进行去重处理时，无法在满足对短文本的快速去重处理的同时，保证去重的较高准确度的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种文本的处理方法，该方法包括：

接收终端发送的至少两个文本；至少两个文本中包括第一文本和第二文本；

根据第一文本生成第一文本节点，根据第二文本生成第二文本节点；第一文本节点中包括第一文本的第一分词集合，第二文本节点中包括第二文本的第二分词集合；

确定第一分词集合和第二分词集合的第一相似度；

当第一相似度大于相似度阈值时，将第一文本节点和第二文本节点建立连接关系，生成第一树状结构图；

对第一树状结构图中文本节点对应的文本进行去重处理。

根据本申请的另一方面，提供了一种文本的处理装置，该装置包括：

接收模块，用于接收终端发送的至少两个文本；至少两个文本中包括第一文本和第二文本；

生成模块，用于根据第一文本生成第一文本节点，根据第二文本生成第二文本节点；第一文本节点中包括第一文本的第一分词集合，第二文本节点中包括第二文本的第二分词集合；

确定模块，用于确定第一分词集合和第二分词集合的第一相似度；