[发明专利]公文判定方法、装置及电子设备有效
申请号: | 201811372564.2 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109460555B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张玉林;熊英超;田红星;李欢丽 | 申请(专利权)人: | 南京中孚信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张海洋 |
地址: | 210000 江苏省南京市浦口区江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公文 判定 方法 装置 电子设备 | ||
1.一种公文判定方法,其特征在于,包括:
分别对公文文档集和非公文文档集进行分词处理,得到第一词集向量和第二词集向量;
分别统计所述第一词集向量和所述第二词集向量中的每个词对应的文档频率,得到所述第一词集向量对应的第一文档频率向量及所述第二词集向量对应的第二文档频率向量;
从所述第一词集向量中提取出多个特征词;
根据多个所述特征词在所述第一文档频率向量中对应的文档频率和多个所述特征词在所述第二文档频率向量中对应的文档频率,计算得到每个所述特征词的词权重;
从多个所述特征词中筛选出所述词权重处于第一预设权重取值范围之内的特征词;
基于筛选出的所述特征词及所述特征词的词权重,得到所述公文文档集对应的特征词向量及所述特征词向量对应的词权重向量;
逐一判断所述特征词向量中的各个特征词的词权重是否处于第二预设权重范围之内;
如果是,对所述特征词的词权重进行降值处理,得到新的特征词向量及所述新的特征词向量对应的词权重向量;
将所述新的特征词向量及所述新的特征词向量对应的词权重向量,作为所述公文文档集对应的特征词向量及所述特征词向量对应的词权重向量;
获取待判定文档,并对所述待判定文档进行分词处理得到多个词汇;
根据多个所述词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及所述特征词向量对应的词权重向量,计算得到所述待判定文档的分数;其中,所述特征词向量及所述特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当所述待判定文档的分数大于预设分数阈值时,将所述待判定文档确定为公文。
2.根据权利要求1所述的方法,其特征在于,所述根据多个所述词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及所述特征词向量对应的词权重向量,计算得到所述待判定文档的分数的步骤,包括:
逐一判断各个所述词汇是否存在于所述特征词向量中;
如果是,根据所述特征词向量对应的词权重向量,确定所述词汇的词权重;
如果否,将所述词汇的词权重确定为0;
根据多个所述词汇的词权重,计算得到所述待判定文档的分数。
3.根据权利要求1所述的方法,其特征在于,所述预设分数阈值通过以下方式进行确定:
根据最终确定的公文文档集对应的特征词向量及词权重向量,分别对所述公文文档集中各篇公文文档以及所述非公文文档集中的各篇非公文文档进行评分,得到所述公文文档集对应的第一分数集以及所述非公文文档集对应的第二分数集;
根据所述第一分数集和第二分数集,确定分数阈值的取值范围;
基于所述分数阈值的取值范围,计算得到F-Measure的多个值;
将F-Measure的最大值对应的分数阈值确定为所述预设分数阈值。
4.根据权利要求1所述的方法,其特征在于,每个所述特征词的词权重,通过以下公式计算得到:
;
其中,weight(m,n)表示所述特征词的词权重;表示所述特征词在第一文档频率向量中对应的文档频率;表示所述特征词在第二文档频率向量中对应的文档频率;;为光滑因子。
5.根据权利要求2所述的方法,其特征在于,所述待判定文档的分数,通过以下公式计算得到:
;
其中,表示所述待判定文档的分数;表示所述待判定文档中词汇的数量;;表示所述待判定文档中第个词汇的词权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811372564.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种过滤屏蔽词的方法及装置
- 下一篇:一种翻译方法和装置