[发明专利]一种文本去重方法及系统有效
| 申请号: | 201810134643.3 | 申请日: | 2018-02-09 |
| 公开(公告)号: | CN108345586B | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 孙世通;刘德彬;万杰;严开;陈玮 | 申请(专利权)人: | 重庆电信系统集成有限公司;重庆誉存大数据科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284 |
| 代理公司: | 重庆志合专利事务所(普通合伙) 50210 | 代理人: | 胡荣珲 |
| 地址: | 400021 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供一种文本去重方法,包括以下步骤,目标文本数据预处理步骤;生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤;去重步骤。本发明针对网络文本独有的特性,在应用SimHash算法的策略上做出调整,在以新闻文本背后事件为主体进行去重时,获得更优效果与更高鲁棒性。 | ||
| 搜索关键词: | 一种 文本 方法 系统 | ||
【主权项】:
1.一种文本去重方法,其特征在于,包括以下步骤,目标文本数据预处理;生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值;去重步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆电信系统集成有限公司;重庆誉存大数据科技有限公司,未经重庆电信系统集成有限公司;重庆誉存大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810134643.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的自动问答方法
- 下一篇:一种评论的真实性检测方法与系统





