[发明专利]一种文本去重方法及系统有效
| 申请号: | 201810134643.3 | 申请日: | 2018-02-09 |
| 公开(公告)号: | CN108345586B | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 孙世通;刘德彬;万杰;严开;陈玮 | 申请(专利权)人: | 重庆电信系统集成有限公司;重庆誉存大数据科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284 |
| 代理公司: | 重庆志合专利事务所(普通合伙) 50210 | 代理人: | 胡荣珲 |
| 地址: | 400021 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 方法 系统 | ||
1.一种文本去重方法,其特征在于,包括以下步骤,
目标文本数据预处理;其中,目标文本数据预处理包括,
去除目标文本中的停用词,获取目标文本标题分词信息,获取目标文本正文断句信息;
生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0 ,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标
生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值;
去重步骤。
2.如权利要求1所述的一种文本去重方法,其特征在于,去重步骤包括,依据下述公式判断目标文本与样本是否表述相同事件,
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件。
3.如权利要求2所述的一种文本去重方法,其特征在于,还包括步骤,
若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
4.如权利要求1所述的一种文本去重方法,其特征在于,还包括获取样本数据库,获取样本数据库包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
5.一种文本去重系统,其特征在于,包括以下单元,
预处理单元,用于目标文本数据预处理;预处理单元去除目标文本中的停用词;
预处理单元获取目标文本标题分词信息,获取目标文本正文断句信息;
目标文本处理单元,用于生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值;
目标文本处理单元生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
目标文本处理单元生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0 ,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标
去重单元,用于去重。
6.如权利要求5所述的一种文本去重系统,其特征在于,去重单元依据下述公式判断目标文本与样本是否表述相同事件,
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆电信系统集成有限公司;重庆誉存大数据科技有限公司,未经重庆电信系统集成有限公司;重庆誉存大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810134643.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的自动问答方法
- 下一篇:一种评论的真实性检测方法与系统





