[发明专利]文本的处理方法、装置、设备及存储介质有效
申请号: | 201910395287.5 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110134768B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 赵旸;邱旻峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种文本的处理方法、装置、设备以及存储介质,涉及互联网领域。该方法包括通过文本的分词集合,确定两两文本之间的相似度;当第相似度大于相似度阈值时,将相似的两个文本对应的文本节点建立连接关系,生成第一树状结构图;从第一树状结构图中确定出第一根节点,将第一根节点对应的文本确定为去重后的文本。该方法通过将相似的文本之间建立连接关系,形成树状结构图;在树状结构图中,通过遍历的技术手段快速的找到树状结构图中的根节点,实现对大量文本的快速去重。 | ||
搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
【主权项】:
1.一种文本的处理方法,其特征在于,所述方法包括:接收终端发送的至少两个文本;所述至少两个文本中包括第一文本和第二文本;根据所述第一文本生成第一文本节点,根据所述第二文本生成第二文本节点;所述第一文本节点中包括所述第一文本的第一分词集合,所述第二文本节点中包括所述第二文本的第二分词集合;确定所述第一分词集合和所述第二分词集合的第一相似度;当所述第一相似度大于相似度阈值时,将所述第一文本节点和所述第二文本节点建立连接关系,生成第一树状结构图;对所述第一树状结构图中文本节点对应的文本进行去重处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910395287.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种词汇表的筛选方法
- 下一篇:一种专利数据采集方法