[发明专利]文档分类预测方法、装置、计算机设备及存储介质在审
申请号: | 202011521171.0 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112699923A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 刘玉;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/951;G06F16/11;G06F16/35 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 分类 预测 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及分类模型技术领域,揭露了一种文档分类预测方法、装置、计算机设备及存储介质。该方法通过接收包含目标文档的预测请求指令;通过预设文档解析模型对目标文档进行文档解析,得到与目标文档对应的文字信息以及与文字信息对应的坐标信息;将文字信息以及坐标信息输入至预设预训练语言模型中,对文字信息以及坐标信息进行向量提取,得到与目标文档对应的文档表示向量;获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个样本文档向量关联一个文档类别;确定文档表示向量与各样本文档向量之间的文档向量距离,并根据各文档向量距离确定目标文档对应的文档类别。本发明提高了文档分类的效率。
技术领域
本发明涉及分类模型技术领域,尤其涉及一种文档分类预测方法、装置、计算机设备及存储介质。
背景技术
目前各个领域中均包括数以万计的pdf文档,例如在学术领域存在pdf 论文,在专业领域中存在pdf数据报告等。在越来越多pdf文档产生过后,如何对这些pdf文档进行有效分类并且对新文档进行文档类别预测是一种挑战。
现有技术中的文档分类模型一般都需要大量的标注数据进行训练,才拥有较为可观的分类精度,但是这些文档分类模型容易受到数据不平衡的影响,例如某种类别的训练数据很少,则模型在这个分类上的分类精度会较低,进而导致文档分类准确率较低,并且人工标注数据需要花费大量的时间,不利于模型在各个领域中进行部署应用。
发明内容
本发明实施例提供一种文档分类预测方法、装置、计算机设备及存储介质,以解决人工标注数据较少导致文档分类准确率较低的问题。
一种文档分类预测方法,包括:
接收包含目标文档的预测请求指令;
通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
一种文档分类预测装置,包括:
预测请求指令接收模块,用于接收包含目标文档的预测请求指令;
文档解析模块,用于通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
第一向量提取模块,用于将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
文档向量集获取模块,用于获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
文档类别确定模块,用于确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分类预测方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文档分类预测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011521171.0/2.html,转载请声明来源钻瓜专利网。