[发明专利]试题分类模型的训练方法、装置、设备、介质及程序产品在审
申请号: | 202210348773.3 | 申请日: | 2022-04-01 |
公开(公告)号: | CN115129858A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 蔡晓凤;叶礼伟;杨晖;刘萌;孙朝旭;卢鑫鑫;吴嫒博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 侯艳华;蒋雅洁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 试题 分类 模型 训练 方法 装置 设备 介质 程序 产品 | ||
1.一种试题分类模型的训练方法,其特征在于,所述试题分类模型包括:第一分类层、第二分类层及映射层,所述方法包括:
获取具有相同试题文本的第一试题样本及第二试题样本,所述第一试题样本携带第一标签,所述第二试题样本携带第二标签;
其中,所述第一标签用于指示,在包括多个内容节点的教材体系中,所述试题文本归属的第一节点,所述第二标签用于指示所述试题文本归属的第二节点,所述第一节点与所述第二节点在所述教材体系中处于不同节点层级;
通过所述第一分类层,基于所述第一试题样本进行分类预测,得到所述试题文本归属的第一预测节点,并通过所述第二分类层,基于所述第二试题样本进行分类预测,得到所述试题文本归属的第二预测节点;
通过所述映射层,基于所述教材体系中节点间的关联关系,对所述第二预测节点进行映射,得到与所述第二预测节点对应的映射节点,所述映射节点与所述第一预测节点处于相同节点层级;
结合所述第一标签、所述第二标签、所述第一预测节点、所述第二预测节点及所述映射节点,更新所述试题分类模型的模型参数。
2.如权利要求1所述的方法,其特征在于,所述第一分类层包括第一编码层及第一预测层,所述第二分类层包括第二编码层及第二预测层;其中,所述第一编码层与所述第二编码层共享模型参数;
通过所述第一分类层,基于所述第一试题样本进行分类预测,得到所述试题文本归属的第一预测节点,包括:
通过所述第一编码层,对所述第一试题样本进行向量编码,得到第一编码向量,并通过所述第一预测层,基于所述第一编码向量进行分类预测,得到所述试题文本归属的第一预测节点;
所述通过所述第二分类层,基于所述第二试题样本进行分类预测,得到所述试题文本归属的第二预测节点,包括:
通过所述第二编码层,对所述第二试题样本进行向量编码,得到第二编码向量,并通过所述第二预测层,基于所述第二编码向量进行分类预测,得到所述试题文本归属的第二预测节点。
3.如权利要求2所述的方法,其特征在于,所述通过所述第一编码层,对所述第一试题样本进行向量编码,得到第一编码向量,包括:
通过所述第一编码层,对所述第一试题样本进行分词处理得到多个样本词;
分别对各个所述样本词进行编码,得到各所述样本词对应的词向量;
对各所述样本词对应的词向量进行向量平均,得到所述第一编码向量。
4.如权利要求2所述的方法,其特征在于,所述通过所述第一编码层,对所述第一试题样本进行向量编码,得到第一编码向量,包括:
通过所述第一编码层,对所述第一试题样本进行关键词提取,得到多个关键词;
分别对各个所述关键词进行编码,得到各所述关键词对应的关键词向量;
获取各所述关键词对应的权重,并基于所述权重对各所述关键词对应的关键词向量进行加权求和,得到所述第一编码向量。
5.如权利要求1所述的方法,其特征在于,所述获取具有相同试题文本的第一试题样本及第二试题样本,包括:
当所述试题文本对应目标试题时,获取所述目标试题的题干、答案及所述答案对应的解析内容;
对所述目标试题的题干、答案及所述答案对应的解析内容进行拼接,得到所述试题文本;
基于所述试题文本进行标签标注,得到携带所述第一标签的所述第一试题样本及携带所述第二标签的所述第二试题样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210348773.3/1.html,转载请声明来源钻瓜专利网。