[发明专利]一种相似文档识别、文档扩散度确定的方法及系统有效
| 申请号: | 201010105297.X | 申请日: | 2010-02-04 |
| 公开(公告)号: | CN101826099A | 公开(公告)日: | 2010-09-08 |
| 发明(设计)人: | 柯宗贵;柯宗庆 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510630 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 相似 文档 识别 扩散 确定 方法 系统 | ||
技术领域
本发明涉及互联网领域,尤其涉及一种相似文档的识别方法和系统,以及 一种确定文档扩散度的方法及系统。
背景技术
随着互联网的快速普及,上传至网络中的文档可以在很短的时间内被广泛 扩散。针对某些涉及安全、保密等特殊领域下,需要对文档在互联网内的传播 进行跟踪、分析,即舆论扩散分析。目前的舆论扩散分析方式是:从互联网中 搜索出多个页面;然后采用生成文件指纹的方式,在利用页面的标签树结构的 基础上,提取标题和文本块生成SHA-1指纹序列,如果搜索出的页面和需要 进行舆论扩散分析的文档具有的相同的指纹块数量在设定的范围内,则将搜索 出的页面和需要进行舆论扩散分析的文档归为一类,表示需要进行舆论扩散分 析的文档扩散至搜索出的所述页面。通过多次执行上述舆论扩散分析方式得到 需要进行舆论扩散分析的文档的扩散度。
在上述利用文件指纹进行舆论扩散分析的方式下,只能通过对两篇进行比 较的文档在标题和文本块上进行分析,造成两篇文档是否是相似文档的识别准 确性较低的问题。
发明内容
本发明实施例提供一种相似文档的识别方法和系统,以解决对两个文档是 否是相似文档的识别准确性较低的问题。
一种相似文档的识别方法,所述方法包括:
按照预先设定的搜索条件从网络中搜索出满足所述搜索条件的页面;
提取所述页面的正文内容,并采用最大公共序列算法,将提取的所述正文 内容与基准文档的正文内容进行比较,并根据比较结果确定提取正文内容的页 面与基准文档是否是相似文档。
一种相似文档的识别系统,所述系统包括:
搜索模块,用于按照预先设定的搜索条件从网络中搜索出满足所述搜索条 件的页面;
正文提取模块,用于提取搜索出的所述页面的正文内容;
比较模块,用于采用最大公共序列算法,将提取的所述正文内容与基准文 档的正文内容进行比较;
相似判定模块,用于根据比较结果确定提取正文内容的页面与基准文档是 否是相似文档。
有益效果:
由于本发明实施例采用最大公共序列算法对搜索出的页面的正文内容与 基准文档的正文内容是否是相似文档进行了识别,因此,提高了两篇文档相似 度识别的准确性。
本发明实施例还提供一种确定文档在网络中扩散度的方法和系统,通过识 别准确性较高的文档识别方法,提高对基准文档在互联网中舆论扩散情况分析 的精准度。
一种确定文档在网络中扩散度的方法,所述方法包括:
按照预先设定的搜索条件从网络中搜索出满足所述搜索条件的页面;
依次提取每个所述页面的正文内容,并采用最大公共序列算法,将提取的 所述正文内容与基准文档的正文内容进行比较,并根据比较结果确定提取正文 内容的页面与基准文档是否是相似文档;
在提取正文内容的页面与基准文档是相似文档时,增大所述基准文档对应 的扩散度。
一种确定文档在网络中扩散度的系统,所述系统包括:
搜索模块,用于按照预先设定的搜索条件从网络中搜索出满足所述搜索条 件的页面;
正文提取模块,用于依次提取搜索出的所述页面的正文内容;
比较模块,用于采用最大公共序列算法,将提取的所述正文内容与基准文 档的正文内容进行比较;
相似判定模块,用于根据比较结果确定提取正文内容的页面与基准文档是 否是相似文档;
扩散度调整模块,用于在提取正文内容的页面与基准文档是相似文档时, 增大所述基准文档对应的扩散度。
有益效果:
由于本发明实施例在采用最大公共序列算法对搜索出的页面的正文内容 与基准文档的正文内容是否是相似文档进行识别的基础上,进一步通过相似度 识别的判定结果对基准文档进行互联网的舆论扩散分析,因此,提高对基准文 档舆论扩散分析情况的准确性,有助于管理员正确获知基准文档在网络中的扩 散情况。
附图说明
图1为本发明实施例一中相似文档的识别方法示意图;
图2为本发明实施例二中确定文档在网络中扩散度的方法示意图;
图3为本发明实施例三中确定文档在网络中扩散度的方法示意图;
图4为本发明实施例四中相似文档的识别系统结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010105297.X/2.html,转载请声明来源钻瓜专利网。





