[发明专利]公文判定方法、装置及电子设备有效
申请号: | 201811372564.2 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109460555B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张玉林;熊英超;田红星;李欢丽 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张海洋 |
地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公文 判定 方法 装置 电子设备 | ||
本发明提供了一种公文判定方法、装置及电子设备,涉及计算机算法技术领域,该方法包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明能够有效提升公文判定的准确率。
技术领域
本发明涉及计算机算法技术领域,尤其是涉及一种公文判定方法、装置及电子设备。
背景技术
随着大数据时代的到来,各类文件充斥在互联网上,其中可能存在一些失泄密的文件,这些失泄密的文件主要来源类型为政府公文,为确保国家保密工作的安全,需要及时的从海量的文件中筛选出政府公文。
目前主要依据相关标准格式规定,诸如规定中对格式的要求可以分为版头、主体、版记、页码四个部分,对文件进行公文判定。但这样的方法不具备普适性,例如当出现部分公文的写作并未严格按照相关格式进行;或者出现上传在互联网上的政府公文转变为纯文本,许多原有的格式都已被覆盖等情况时,利用上述基于格式规定的公文判定方法并不能筛选出政府公文,使得公文判定的准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种公文判定方法、装置及电子设备,以提升公文判定的准确率。
第一方面,本发明实施例提供了一种公文判定方法,包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在获取待判定文档之前,上述方法还包括:分别对公文文档集和非公文文档集进行分词处理,得到第一词集向量和第二词集向量;分别统计第一词集向量和第二词集向量中的每个词对应的文档频率,得到第一词集向量对应的第一文档频率向量及第二词集向量对应的第二文档频率向量;从第一词集向量中提取出多个特征词;根据多个特征词在第一文档频率向量中对应的文档频率和多个特征词在第二文档频率向量中对应的文档频率,计算得到每个特征词的词权重;从多个特征词中筛选出词权重处于第一预设权重取值范围之内的特征词;基于筛选出的特征词及特征词的词权重,得到公文文档集对应的特征词向量及特征词向量对应的词权重向量。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,上述方法还包括:逐一判断特征词向量中的各个特征词的词权重是否处于第二预设权重范围之内;如果是,对特征词的词权重进行降值处理,得到新的特征词向量及新的特征词向量对应的词权重向量;将新的特征词向量及新的特征词向量对应的词权重向量,作为公文文档集对应的特征词向量及特征词向量对应的词权重向量。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数的步骤,包括:逐一判断各个词汇是否存在于特征词向量中;如果是,根据特征词向量对应的词权重向量,确定词汇的词权重;如果否,将词汇的词权重确定为0;根据多个词汇的词权重,计算得到待判定文档的分数。
结合第一方面,本发明实施例提供了第一方面第四种可能的实施方式,其中,预设分数阈值通过以下方式进行确定:根据特征词向量与词权重向量,分别对公文文档集中各篇公文文档以及非公文文档集中的各篇非公文文档进行评分,得到公文文档集对应的第一分数集以及非公文文档集对应的第二分数集;根据第一分数集和第二分数集,确定分数阈值的取值范围;基于分数阈值的取值范围,计算得到F-Measure的多个值;将F-Measure的最大值对应的分数阈值确定为预设分数阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811372564.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种过滤屏蔽词的方法及装置
- 下一篇:一种翻译方法和装置