[发明专利]一种文本去重方法和装置有效
申请号: | 201310556688.7 | 申请日: | 2013-11-11 |
公开(公告)号: | CN104636319B | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 贾铸斌;袁昌文 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 方法 装置 | ||
1.一种文本去重方法,其特征在于,该方法包括:
针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,建立该案例文本对应的各切片的签名值与该案例文本的关联关系;
提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值,查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
2.根据权利要求1所述的方法,其特征在于,
按照预设规则对提取的特征词串进行切片的方法为:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
3.根据权利要求1所述的方法,其特征在于,
所述计算每个切片的签名值的方法为:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
4.根据权利要求1所述的方法,其特征在于,
查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本的方法为:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
5.根据权利要求1所述的方法,其特征在于,
根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度的方法为:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
6.一种文本去重装置,其特征在于,该装置包括:文本处理单元、关系建立单元、关系查找单元、去重单元;
所述文本处理单元,用于针对每一案例文本,提取该案例文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;用于提取待处理文本中的特征词,按照预设规则对提取的特征词串进行切片并计算每个切片的签名值;
所述关系建立单元,用于建立每一案例文本对应的各切片的签名值与该案例文本的关联关系;
所述关系查找单元,用于查找关系建立单元建立的每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本,并对关联该案例文本的签名值个数进行累加;
所述去重单元,用于确定签名值个数累加结果最大的案例文本,根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度,如果相似度大于第一预设值,则确定待处理文本和该案例文本相似,对待处理文本进行去重处理。
7.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在按照预设规则对提取的特征词串进行切片时,用于:
对于特征词串中的每个特征词,判断是否具有从该特征词开始的连续N个特征词,如果是,则将从该特征词开始的连续N个特征词划为一个切片;其中,N为第二预设值。
8.根据权利要求6所述的装置,其特征在于,
所述文本处理单元在计算每个切片的签名值时,用于:
对该切片进行哈希hash运算,将hash运算结果作为该切片的签名值。
9.根据权利要求6所述的装置,其特征在于,
所述关系查找单元在查找每个所述关联关系,确定待处理文本对应的各切片的签名值关联的案例文本时,用于:
针对待处理文本对应的每个切片,查找签名值与该切片的签名值相同的关联关系,将该关联关系中的案例文本确定该切片的签名值关联的案例文本。
10.根据权利要求6所述的装置,其特征在于,
所述去重单元在根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度时,用于:
计算该签名值个数与所述切片总个数的商,将计算结果作为待处理文本与该案例文本的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310556688.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视音频电子卷宗系统
- 下一篇:移动通信域过界操纵用计算机