[发明专利]一种确定涉密文本的方法和装置在审
申请号: | 202011111708.6 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112149403A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 李昊达;高欣;刘兵;杨雨婷;陈旭 | 申请(专利权)人: | 军工保密资格审查认证中心 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/247;G06F40/289;G06F40/30 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 文本 方法 装置 | ||
本公开涉及一种确定涉密文本的方法和装置。包括:从文本中获取包含涉密关键词及其上下文信息的子文本;根据所述子文本,确定所述涉密关键词之间的依存关系;将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。本公开能够从涉密关键词的上下文语义上确定文本的涉密内容,因而,涉密文本的确定方法更为准确和快速。
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种确定涉密文本的方法和装置。
背景技术
文件是否涉密以及该文件的密级是由文件所包含的具体涉密内容决定的,文件中具体的涉密内容称为密点。相关技术中,对涉密文本的确定多由人工完成。人工定密主观性较强,所依据的定密标准不够统一,不同领域,不同的单位定密标准往往差别很大,导致定密结果不准确。
发明内容
为克服相关技术中存在的问题,本公开提供一种确定涉密文本方法和装置。
根据本公开实施例的第一方面,提供一种确定涉密文本的方法,包括:
从文本中获取包含涉密关键词及其上下文信息的子文本;
根据所述子文本,确定所述涉密关键词之间的依存关系;
将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。
在一种可能的实现方式中,所述涉密关键词被设置为按照如下方式确定,包括:
获取文本中的词语;
将所述词语与预设的涉密关键词库中涉密关键词进行匹配;
若匹配成功,则将所述词语确定为涉密关键词。
在一种可能的实现方式中,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:
若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;
将所述同义词与所述涉密关键词进行匹配。
在一种可能的实现方式中,所述同义词语转换模型包括下述中的至少一种:
音变模型、形变模型、错别字模型和繁体字模型。
在一种可能的实现方式中,从文本中获取涉密关键词及其上下文信息所在的子文本,包括:
确定所述文本中的涉密关键词;
将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。
在一种可能的实现方式中,根据所述子文本,确定所述涉密关键词之间的依存关系,包括:
将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。
在一种可能的实现方式中,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:
所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,
所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军工保密资格审查认证中心,未经军工保密资格审查认证中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011111708.6/2.html,转载请声明来源钻瓜专利网。