[发明专利]一种基于语义信息的相似题推荐系统及其使用方法在审
申请号: | 202110639976.3 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113569035A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 缑允卿;钱锟;王钰 | 申请(专利权)人: | 中教云智数字科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100088 北京市海淀区牡丹园花*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 信息 相似 推荐 系统 及其 使用方法 | ||
1.一种基于语义信息的相似题推荐系统,其特征在于,包括数据读取单元、类型分类单元、生成单元和计算单元;
数据读取单元,所述数据读取单元包括第一读取模块、数据预处理模块和限制模块,所述第一读取模块用于对试题库中的全部数据进行读取,所述数据处理模块用于对试题库中的全部数据进行整理,所述限制模块用于对试题的文本长度进行限制,并限制在512个字符内;
类型分类单元,所述类型分类单元包括类型识别模块和试题分类模块,所述类型识别模块用于对每道试题的所述知识点进行识别,所述试题分类模块用于对识别后的试题进行归类;
生成单元,所述生成单元包括生成模块和存储模块,所述生成模块用于对每道试题使用基于汉明距离的哈希函数生成具有局部敏感哈西性质的哈希值和句向量,所述存储模块用于将生成的哈希值进行保存;
计算单元,所述计算单元用于将所有相同知识点下哈希值相同的推荐题进行余弦相似度计算。
2.如权利要求1所述的一种基于语义信息的相似题推荐系统,其特征在于,所述数据读取单元还包括第二读取模块,所述第二读取模块用于读取待推荐试题的知识点和句向量,并读取该待推荐试题的哈希值。
3.一种基于语义信息的相似题推荐系统的使用方法,其特征在于,包括如下步骤:
S1、读取试题数据,使用第一读取模块从试题库中读取全部的试题数据,包含试题题干,答案,题目id,并使用数据处理模块将答案与试题题干拼接,同时使用限制模块将试题的文本长度限制在512个字符内;
S2、知识点划分,使用类型识别模块对每道试题的知识点进行识别,同时使用试题分类模块将相同知识点的试题汇总在一起,与知识点不同的试题划分开;
S3、生成哈希值,使用生成模块,为每道试题生成具有局部敏感哈西性质的哈希值;
S4、读取待推荐试题,读取待推荐试题的知识点和句向量,并读取该待推荐试题的哈希值;
S5、推荐题输出,取相同知识点下哈希值相同的所有句向量,作为计算余弦相似度的候选者,对哈希值相同的这些试题的句向量与待推荐试题的句向量计算余弦相似度,为了防止推荐的题目与待推荐题目过于相似或者基本一致,设定余弦相似度的阈值,只推荐低于该阈值的试题,在相似度低于该阈值的试题,取相似度排名最高的几道试题作为输出。
4.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S1中,包括如下步骤:
S1.1、从试题库中读取全部的试题数据,包含试题题干,答案,题目id;
S1.2、将答案与试题题干拼接;
S1.3、将试题的文本长度限制在512个字符内。
5.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S2中,包括如下步骤:
S2.1、使用类型识别模块对每道试题的知识点进行识别,进行记录;
S2.2、根据知识点识别的试题,将相同知识点的试题汇总在一起,与知识点不同的试题划分开。
6.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S3中,包括如下步骤:
S3.1、运用BERT为每道试题生成句向量;
S3.2、使用基于汉明距离的哈希函数生成为每道试题的句向量生成具有局部敏感哈西性质的哈希值。
7.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S4中,包括如下步骤:
S4.1、根据题目id,从计算完成的知识点和句向量中读取该题目所属的知识点和该题目的句向量;
S4.2、根据题目id,从计算完成的哈希值中读取该题目的哈希值。
8.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S4中,根据局部敏感哈希的性质,在高维空间中距离足够近的两个点在低维空间中才会由于哈希值相同产生哈希冲突,取哈希值相同的试题作为计算余弦相似度的待推荐试题,可以在确保相似题计算的精度的同时,最大限度地减少对于明显不够相似的题目的不必要的计算。
9.如权利要求1所述的一种基于语义信息的相似题推荐系统的使用方法,其特征在于,在S5中,在哈希值相同的向量中,对每个试题与待推荐试题计算余弦相似度,然后设定阈值,去除相似度过高的试题或相同试题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中教云智数字科技有限公司,未经中教云智数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110639976.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置