[发明专利]基于内容相关性的文件涉密内容检索、密级判定及标注方法有效
申请号: | 201210296061.8 | 申请日: | 2012-08-20 |
公开(公告)号: | CN102819604A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 徐亮;谭煌 | 申请(专利权)人: | 徐亮;谭煌 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 何为;李宇 |
地址: | 410081 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 相关性 文件 检索 密级 判定 标注 方法 | ||
技术领域
本发明涉及对电子文档里的具体内容进行基于内容相关性的文件涉密内容检索、密级判定和标注方法。
背景技术
在现在的保密工作当中,对于涉密文件的管理和使用是很重要的一个环节,而其中对于文件密级的判定则是一项很重要的工作。现在的密级判定全部依赖于人工来实现,使得判定工作的周期过长、准确性不高,而且密级的确定涉及到整个文件,这就给涉密文件中一些非涉密内容的引用带来了极大的不便。为此能够依靠计算机,实现自动化且有效的判断一个文件的内容是否涉密、哪些具体内容涉密、涉密内容的密级如何的方法就显得尤为重要了。现在的文件涉密内容检索,包括一个已公开的发明专利申请——计算机系统涉密文件搜索方法(申请号:200910156814.3,申请公布号:CN 101763394A),其采用的是对涉密关键词的匹配或者是通过对不同密级、不同类型、不同行业的涉密文件分析出特征点,然后对这些特征点实现组合搜索。但这种搜索方法存在一定的局限性,原因如下:
1.准确性不高。有些关键词和特征点只有在某种特定的语境下才涉密,而简单的关键词和特征点的匹配只能找出文件中是否含有该词语和特征点,并不能有效的判断该处文字的语境,因此,很多时候找出来的“涉密内容”实际上并不涉密。
2.完整性不强。文件内容的表达方式多种多样,包括文字、图片、视频、音频等,仅仅文字方面,对一个事物的表述方式就千差万别,这就使得无法用一些固定的关键词或特征点来涵盖所有的涉密信息,关键词和特征点只能起到提纲的作用,基于简单的搜索匹配的方法有可能会漏掉很多不包含关键词和特征点,但却包含涉密信息的内容,给保密工作带来隐患。
3.搜索结果的可用性不强。采用已有的方法查找出的文件,用户只能知道整个文件是涉密还是不涉密,并不能具体的给出文件中究竟哪个词语、哪个句子、哪个段落的内容涉密、涉密内容的密级分别是什么,这就给今后引用该文件中的内容造成了很大的不便。
4.不具备自动学习的功能。随着社会的发展,不断的会有新的文件、新的关键词、新的特征点出现。而已有的方法,只能是在已有的涉密文件的基础上来进行搜索,而没有办法涉及到新出现的涉密内容。
发明内容
本发明目的在于,针对现有技术中的问题,提出一种基于内容相关性的涉密内容检索、密级判定及标注方法,其可根据文件的上下文内容来进行智能化的语义检索,能准确地检索出文件中的涉密信息、确定涉密内容的范围、密级,实现对文本内容中涉密内容的准确定位和范围界定,帮助定密负责人和保密部门的工作人员进行高效的定密和保密检查工作,实现定密的科学化、合理化、规范化、高效化;还可以对检索出来的涉密内容进行标注,方便今后对该文件的引用。
为了实现上述目的,本发明提出了基于内容相关性进行涉密内容检索、密级确定及标注的方法,其依次包括以下步骤:
A、加载步骤:加载文档所属范围的涉密关键词及匹配规则库、本体库和定密规则库;
B、解析步骤:对文档中的文字进行分词操作,并解析出该文档所包含图片、视频、音频中隐含的信息;
C、检索步骤:对解析后的文档进行基于内容相关性的语义检索,根据语义关联度的大小来判断文档中相关信息与涉密关键词的内容相关性的大小,检索出文档中的涉密内容及该涉密内容在文档中的范围;
D、密级确定步骤:根据检索结果和所属范围的定密规则库,确定文档中涉密内容的密级;
E、标注步骤:对文档中确定了密级的涉密内容进行标注,生成标注文档。
作为优选,本发明还包括步骤F:根据对整个文件的密级标注进行分析统计,给出文件中各个密级内容的统计信息,依据设定的文档密级确定规则给出整个文档的密级判定,并对其进行标注。
作为优选,本发明还包括步骤G:从文档中提取相关信息,如提取相应的关键字、生成内容摘要、给出该文档应属的部门、定密时间等,制成该文档的定密审批表和加了密级标注的文档。
作为优选,本发明基于内容相关性进行涉密内容检索、密级确定及标注的方法还包括自学习步骤:对不属于已有范围的文档,对文档进行完检索后,提取相应的关键字和匹配规则,加入到默认关键词词库和匹配规则库当中。
作为优选,所述加载步骤中文档所属范围的涉密关键词及匹配规则库是指对属于某一特定领域范围、某一特定部门、行业中的已知的所有涉密关键词集合;与该行业、领域判断是否是涉密信息的相关文字的语法、语义规则的集合以及相关图片涉密信息的匹配规则集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐亮;谭煌,未经徐亮;谭煌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210296061.8/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法