[发明专利]一种文档类文件复杂度判定方法及平台在审
申请号: | 201811453460.4 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109740434A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 马万炯;陈俊周;杨龙杰;左林翼;李剑 | 申请(专利权)人: | 四川译讯信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06Q50/20;G06F17/18 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 韩雪 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件参数 复杂度 参数提取部 待检测文件 结果输出部 海量文件 检测结果 模型构建 提取文件 文件输入 类文件 文档 判定 复杂度检测 成本预算 等级设定 客观评价 评价模型 设定文件 数据支撑 文件处理 输出 学习 | ||
1.一种文档类文件复杂度判定方法,其特征在于,包括以下步骤:
Step1:针对海量文件,分别获取每一份文档类文件的若干文件参数,所述文件参数,为文件中包含的各种类信息的数据量;
Step2:根据对文件所获取的各文件参数,对每一份文件进行难度等级设定;
Step3:通过设定的训练模型,对海量文件的各文件参数和对应的难度等级进行学习,得到复杂度检测模型,学习的过程包括确定各项文件参数对应的难度系数的过程;
Step4:获取待检测文件的若干文件参数,载入step3所训练的模型中,即可得到待检测文件的复杂度。
2.如权利要求1所述的文档类文件复杂度判定方法,其特征在于,文件的所述若干文件参数包括文本量、图片量、分栏量和表格量。
3.如权利要求2所述的文件复杂度判定方法,其特征在于,对于从文件中所获取的图片量,为图片尺寸达到预定的尺寸阈值的图片的数量。
4.如权利要求1-3之一所述的文档类文件复杂度判定方法,其特征在于,所述step3中,用于机器学习所用到的每一份文件的文件参数和难度等级,均是进行预处理后所得到的数据。
5.如权利要求4所述的文档类文件复杂度判定方法,其特征在于,所述对每一份文件的文件参数和难度等级的预处理为,对每一份文件的文件参数和难度等级基于文件的页数分别做平均处理。
6.一种文档类文件复杂度判定平台,其特征在于,包括:参数提取部、难度等级划分部、模型构建部、文件输入部和结果输出部,其中:
参数提取部用于针对海量文件,分别获取每一份文件的若干文件参数,还获取待检测文件的若干文件参数传输给模型构建部;所述文件参数,为文件中包含的各种类信息的数据量;
难度等级划分部用于对所述海量文件的每一份文件设定难度等级;
模型构建部用于根据设定的训练模型,对海量文件的各文件参数和对应的难度等级进行学习,训练出复杂度检测模型;
文件输入部用于接收待检测文件,传输给参数提取部;
结果输出部用于输出待检测文件经复杂度检测模型评价后的结果。
7.如权利要求6所述的文档类文件复杂度判定平台,其特征在于,所述参数提取部对文件所获取的若干文件参数包括:文本量、图片量、分栏量和表格量。
8.如权利要求7所述的文档类文件复杂度判定平台,其特征在于,所述参数提取部所获取的图片量,为文件中图片尺寸达到预定的尺寸阈值的图片的数量。
9.如权利要求6-8之一所述的文档类文件复杂度判定平台,其特征在于,所述模型构建部在对海量文件的各文件参数和对应的难度等级进行学习前,先对每一份文件的文件参数和对应的难度等级进行预处理。
10.如权利要求9所述的文档类文件复杂度判定平台,其特征在于,所述预处理具体为:对每一份文件的文件参数和对应的难度等级相对于文件的页数分别做平均处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川译讯信息科技有限公司,未经四川译讯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811453460.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车辆避让方法及车载终端
- 下一篇:一种智能化阅卷系统