[发明专利]文档分类预测方法、装置、计算机设备及存储介质在审
申请号: | 202011521171.0 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112699923A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 刘玉;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/951;G06F16/11;G06F16/35 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 分类 预测 方法 装置 计算机 设备 存储 介质 | ||
1.一种文档分类预测方法,其特征在于,包括:
接收包含目标文档的预测请求指令;
通过预设文档解析模型,对所述目标文档进行文档解析,得到与所述目标文档对应的文字信息以及与所述文字信息对应的坐标信息;
将所述文字信息以及所述坐标信息输入至预设预训练语言模型中,对所述文字信息以及所述坐标信息进行向量提取,得到与所述目标文档对应的文档表示向量;
获取样本文档向量集;所述样本文档向量集中包含至少一个样本文档向量;一个所述样本文档向量关联一个文档类别;
确定所述文档表示向量与各所述样本文档向量之间的文档向量距离,并根据各所述文档向量距离确定所述目标文档对应的文档类别。
2.如权利要求1所述的文档分类预测方法,其特征在于,所述将所述文字信息以及所述坐标信息输入至预设预训练语言模型中之前,还包括:
获取训练文档三元组;所述样本文档三元组包含训练文档、与所述训练文档对应的正样本文档以及与所述样本文档对应的负样本文档;
将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量;
根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值;
在所述总损失值未达到预设的收敛条件时,更新迭代所述初始语言模型的初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始语言模型记录为所述预设预训练语言模型。
3.如权利要求2所述的文档分类预测方法,其特征在于,所述将所述样本文档三元组输入至包含初始参数的初始语言模型中,分别对所述训练文档、正样本文档以及负样本文档进行向量提取,得到与所述训练文档对应的第一训练向量,与所述正样本文档对应的第二训练向量,以及与所述负样本文档对应的第三训练向量,包括:
分别提取所述训练文档、正样本文档以及负样本文档的单词序列,得到与所述训练文档对应的训练单词序列、与所述正样本文档对应的正样本单词序列,以及与所述负样本文档对应的负样本单词序列;
通过预设特征表示方法,确定与所述训练单词序列中各单词对应的训练高阶特征,与所述正样本单词序列中各单词对应的正样本高阶特征,以及与所述负样本单词序列中各单词对应的负样本高阶特征;
分别对所述训练高阶特征、正样本高阶特征以及负样本高阶特征进行平均池化处理,得到所述第一训练向量、第二训练向量以及所述第三训练向量。
4.如权利要求2所述的文档分类预测方法,其特征在于,所述根据所述第一训练向量、第二训练向量以及第三训练向量,确定所述语言模型的总损失值,包括:
确定所述第一训练向量与所述第二训练向量之间的第一文档距离;同时确定所述第一训练向量与所述第三训练向量之间的第二文档距离;
根据所述第一文档距离以及所述第二文档距离,通过三重损失函数确定所述总损失值。
5.如权利要求2所述的文档分类预测方法,其特征在于,所述获取样本文档三元组之前,还包括:
获取预设样本文档集合;所述样本文档集合中包含至少一个样本文档;一个所述样本文档关联一个文档标题;
对各所述文档标题进行归一化处理,并根据归一化处理之后的各文档标题,对各所述样本文档进行文档分类,得到与各所述样本文档对应的文档类别;
自各所述文档类别中选取一个文档类别作为正文档类别;自除所述正文档类别之外的其它文档类别中选取一个文档类别作为负文档类别;
自所述正文档类别中选取一个样本文档并记录为所述训练文档;同时,自所述正文档类别中选取除所述训练文档外的一个样本文档并记录为所述正样本文档;自所述负文档类别中选取一个样本文档并记录为所述负样本文档;
根据所述训练文档、正样本文档以及所述负样本文档构建所述训练文档三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011521171.0/1.html,转载请声明来源钻瓜专利网。