[发明专利]基于试题关键字相似性的试题库中的试题去重方法在审
申请号: | 201610117476.2 | 申请日: | 2016-03-03 |
公开(公告)号: | CN105824798A | 公开(公告)日: | 2016-08-03 |
发明(设计)人: | 江龙;李泽河;曹俊豪;张德刚;王达达 | 申请(专利权)人: | 云南电网有限责任公司教育培训评价中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650011 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于试题关键字相似性的试题库中的试题去重方法,首先对试题进行中文分词得到的分词结;判断分词结是否为关键词,若是则将其加入试题与关键字的关系数据库;然后采用内积计算试题与关键字的关系数据库中任意两个待检测试题之间的相似度;其次判断两个待检测试题是否为非相似试题,并将相似的试题加入重复试题关系数据库;再次根据相似度条件,从重复试题关系数据库中查找出重复试题列表;最后管理人员通过看重复试题列表进行重复试题确认,人为判断试题是否重复。本发明对试题的题干、试题候选项和试题答案进行中文分词,针对切词后的分词进行分析,从而深入分析试题,以便去重更加精准。因此,本发明可以广泛用于试题去重领域。 | ||
搜索关键词: | 基于 试题 关键字 相似性 试题库 中的 方法 | ||
【主权项】:
一种基于试题关键字相似性的试题库中的试题去重方法,它包括以下步骤:1)采用最大正向分词匹配算法对试题库中的试题进行中文分词,中文分词包括对试题库中试题的题干、试题候选项和试题答案进行中文分词,得到的分词称之为分词结;判断分词结是否为试题关键词库中的关键词,若是试题关键词库中的关键词,则将其加入试题与关键字的关系数据库,且试题与关键字的关系数据库包括关键字的出现频率、关键字权值以及关键字出现的顺序;其中,试题关键字库中预先设定试题关键字;2)采用内积计算试题与关键字的关系数据库中任意两个待检测试题之间的相似度;3)将以内积表示的相似度与重复试题阈值相比较,若不大于预先设定的重复试题阈值,则执行步骤4);若大于预先设定的重复试题阈值,则执行步骤5);4)两个待检测试题为非相似试题,则不做处理;5)两个待检测试题为相似试题,并将相似的试题加入重复试题关系数据库;6)根据相似度条件,从重复试题关系数据库中查找出满足条件的重复试题列表;7)管理人员通过看重复试题列表进行重复试题确认,人为判断试题是否重复。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司教育培训评价中心,未经云南电网有限责任公司教育培训评价中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610117476.2/,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和大数据平台
- 下一篇:一种评价语义相似度的方法、装置和系统