[发明专利]一种相似文档识别、文档扩散度确定的方法及系统有效
| 申请号: | 201010105297.X | 申请日: | 2010-02-04 |
| 公开(公告)号: | CN101826099A | 公开(公告)日: | 2010-09-08 |
| 发明(设计)人: | 柯宗贵;柯宗庆 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510630 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 相似 文档 识别 扩散 确定 方法 系统 | ||
1.一种相似文档的识别方法,其特征在于,所述方法包括:
按照预先设定的搜索条件从网络中搜索出满足所述搜索条件的页面;
提取所述页面的正文内容,并采用最大公共序列算法,将提取的所述正文 内容与基准文档的正文内容进行比较,并根据比较结果确定提取正文内容的页 面与基准文档是否是相似文档;
上述根据比较结果确定提取正文内容的页面与基准文档是否是相似文档, 包括:
根据比较结果确定提取的所述正文内容与基准文档的正文内容的公共子 序列;
若确定的所述公共子序列中的最长公共子序列的长度与基准文档的正文 内容的长度之比大于第一设定值,或所述公共子序列中长度最长的N个公共子 序列的长度之和与基准文档的正文内容的长度之比大于第二设定值,则确定提 取正文内容的页面与基准文档是相似文档,所述N为大于1的自然数。
2.如权利要求1所述的方法,其特征在于,所述预先设定的搜索条件包 括搜索地址和/或搜索关键字。
3.如权利要求1所述的方法,其特征在于,搜索出页面之后,且提取所 述页面的正文内容之前,所述方法还包括:
从搜索出的页面中删除无关信息,所述无关信息包括以下信息中的一种或 多种组合:
广告信息、版权信息和页面导航信息。
4.一种确定文档在网络中扩散度的方法,其特征在于,所述方法包括:
按照预先设定的搜索条件从网络中搜索出满足所述搜索条件的页面;
依次提取每个所述页面的正文内容,并采用最大公共序列算法,将提取的 所述正文内容与基准文档的正文内容进行比较,并根据比较结果确定提取正文 内容的页面与基准文档是否是相似文档;上述根据比较结果确定提取正文内容 的页面与基准文档是否是相似文档,包括:根据比较结果确定提取的所述正文 内容与基准文档的正文内容的公共子序列;若确定的所述公共子序列中的最长 公共子序列的长度与基准文档的正文内容的长度之比大于第一设定值,或所述 公共子序列中长度最长的N个公共子序列的长度之和与基准文档的正文内容 的长度之比大于第二设定值,则确定提取正文内容的页面与基准文档是相似文 档,所述N为大于1的自然数;
在提取正文内容的页面与基准文档是相似文档时,增大所述基准文档对应 的扩散度。
5.一种相似文档的识别系统,其特征在于,所述系统包括:
搜索模块,用于按照预先设定的搜索条件从网络中搜索出满足所述搜索条 件的页面;
正文提取模块,用于提取搜索出的所述页面的正文内容;
比较模块,用于采用最大公共序列算法,将提取的所述正文内容与基准文 档的正文内容进行比较;
相似判定模块,用于根据比较结果确定提取正文内容的页面与基准文档是 否是相似文档;
上述相似判定模块包括:
子序列确定子模块,用于根据比较结果确定提取的所述正文内容与基准文 档的正文内容的公共子序列;
执行子模块,用于在确定的所述公共子序列中的最长公共子序列的长度与 基准文档的正文内容的长度之比大于第一设定值,或所述公共子序列中长度最 长的N个公共子序列的长度之和与基准文档的正文内容的长度之比大于第二 设定值时,确定提取正文内容的页面与基准文档是相似文档,其中:N为大于 1的自然数。
6.如权利要求5所述的系统,其特征在于,
所述搜索模块,具体用于按照包括搜索地址和/或搜索关键字的搜索条件, 从网络中搜索出满足所述搜索条件的页面。
7.如权利要求5所述的系统,其特征在于,所述系统还包括:
删除模块,用于从搜索出的页面中删除无关信息,并将无关信息删除后的 页面发送给正文提取模块,其中,所述无关信息包括以下信息中的一种或多种 组合:广告信息、版权信息和页面导航信息。
8.一种确定文档在网络中扩散度的系统,其特征在于,所述系统包括:
搜索模块,用于按照预先设定的搜索条件从网络中搜索出满足所述搜索条 件的页面;
正文提取模块,用于依次提取搜索出的所述页面的正文内容;
比较模块,用于采用最大公共序列算法,将提取的所述正文内容与基准文 档的正文内容进行比较;
相似判定模块,用于根据比较结果确定提取正文内容的页面与基准文档是 否是相似文档;上述相似判定模块包括:子序列确定子模块,用于根据比较结 果确定提取的所述正文内容与基准文档的正文内容的公共子序列;执行子模 块,用于在确定的所述公共子序列中的最长公共子序列的长度与基准文档的正 文内容的长度之比大于第一设定值,或所述公共子序列中长度最长的N个公共 子序列的长度之和与基准文档的正文内容的长度之比大于第二设定值时,确定 提取正文内容的页面与基准文档是相似文档,其中:N为大于1的自然数;
扩散度调整模块,用于在提取正文内容的页面与基准文档是相似文档时, 增大所述基准文档对应的扩散度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010105297.X/1.html,转载请声明来源钻瓜专利网。





