[发明专利]一种搜索引擎评估系统以及管理在审
申请号: | 201710643237.5 | 申请日: | 2017-07-31 |
公开(公告)号: | CN107357737A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 合肥科斯维数据科技有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230001 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索引擎 评估 系统 以及 管理 | ||
1.一种搜索引擎评估系统,其特征在于:包括由测试管理模块、抓取模块、解析模块、Mola数据库、任务切分模块、MySql数据库、评估模块、任务分发模块、任务池、答题监控模块和结果导出模块组成的搜索引擎评估系统,所述测试管理模块分别与抓取模块、MySql数据库和任务切分模块连接,所述抓取模块分别与MySql数据库和解析模块连接,所述解析模块与Mola数据库连接,所述MySql数据库分别与任务切分模块、任务分发模块、任务池、答题监控模块、评估模块和结果导出模块连接,所述任务池分别与任务分发模块和答题监控模块连接;所述测试管理模块用于接收任务发布人员的创建测试,并创建测试的名称、测试的内容(一般是query、url、text等)、对可以做测试人的要求、参加测试的人数、每个测试包中题目的数量、以及抓取的相关信息等,所述抓取模块用于抓取所需要的网页数据,包括抓取的出口,抓取的内容、抓取的配置、是否做解析,所述解析模块用于在抓取的网页中嵌入一些打分项,所述Mola数据库用于储存抓取好的网页,所述任务切分模块将整个测试切分成创建测试时设置的小包,并输入测试题目,所述评估模块用于监控众包人员做题的效果,防止作弊人员,所述任务分发模块会根据创建测试人的要求选择合适的众包答题人员,并且将测试题目发送至答题人的任务池中,所述任务池用于众包答题人员在登录后领取任务,所述答题监控模块用于实时的保存做题的结果,所述结果导出模块用于导出测试的结果,所述MySql数据库用于存储测试管理模块发送的信息、测试题目和测试的结果。
2.一种搜索引擎评估系统管理,其特征在于:包括S1创建测试和测试管理、S2抓取网页和抓取统计、S3任务切分和任务分发、S4评估和准确率计算、S5标注结果保存、S6众包人员等级控制和S7易错题反馈,其步骤为:
S1、任务发布者在前端页面填入必须填写的信息,如上面功能需求所述,然后点击保存,后台程序验证任务发布者权限、验证填写内容是否合法后,将测试必须的信息写入数据库中;
返回给任务发布者可以查看测试信息配置页面,如果任务发布者确认无误可以点击返回进入测试管理页面,如果任务发布者需要修改测试信息,则点击修改按钮进入修改页面进行修改测试的相关信息,如果测试已经发布,则一些信息无法修改,只能修改与发布任务后无关的信息;
修改完成后点击保存,保存测试的配置信息;
S2、在一个测试创建成功后,首先要进行的任务就是抓取测试中的所有页面,把一个测试中的所有url从query表中选取出来,经过拼接,将url和query_id封装成json串发送给抓取服务提供端,等待抓取服务抓取完毕后,会回调评估系统,通知评估系统哪些题目已经抓取好,哪些没有抓取好,评估系统会发送邮件给测试发布人,测试发布人登录系统,如果认为抓取的效果可以接受则进入任务发布阶段,如果认为抓取结果不可接受,可以点击重抓,评估系统会将所有的抓取失败的url和query_id重新封装成json串发送给抓取服务提供端;
让抓取服务端进行抓取;网页抓取的监控,是对抓取系统服务性能的衡量,是评估系统的保证,网页抓取监控模块每周回发送一份周报,统计一周内抓取网页的总数、成功率、平均抓取时间等信息;
S3、抓取完成后,系统会调用任务切分模块,任务切分模块会选择所有抓取成功的题目,将这些题目打散和监控题目混合在一起,然后从数据库中读取测试发布者对任务切分的配置,将所有的任务切分成小块;
每次众包评估者在任务池中只领取一个小包的任务,完成后继续认领其他小包的任务,同一个众包评估者只能认领同一个小包任务一次;
待所有小包任务都收回后,系统通过任务发布者提供的脚本统计出最终的结果,
S4、在任务切分的过程中,如果选择了插入监控的方式,会在切分成小任务包后随机插入一些监控题目,监控题目来自监控题库,监控题目的数量占小包任务数的10%,
在众包标注者标注小包题目提交后,系统会运行准确率检查程序,计算众包标注者对小包中的监控题目和监控题目标注答案的差异,通过计算一致率来计算出众包标注者对本次标注的标注质量,标注的准确率会记录在标注人和小包关联的表中;自动监控是指不需要人工插入监控答案,通过评估全部众包标注者对小包题目的标注来评估每个标注人对小包标注的质量,
在标注人数大于一般的时候众包标注者每次提交标注答案都会运行评估脚本,评估脚本的目的是评估所有参与此次小包标注的人的标注质量以及小包的题目最终统计答案的可靠程度,
对标注质量差的人的答案,采取删除的策略,对可靠程度低的题目会发回任务池进行重新标注,评估脚本运行后也会产生每个标注者的正确率,这个正确率也会被记录在标注人和小包关联的表中,
S5、接受到前端的保存请求时,进行基本的权限判断,是否是授权用户,授权用户即谁有权限可以标注打分——众包评估人员、答案提供人员,如果不是,返回并且提示非法授权用户,如果是,继续保存,
如果用户对打分结果进行修改的话,首先要清除用户以前的打分记录,如果是提供标准答案的标注人的数据,还要删除这个评估题目之前的打分结果,使标注答案标准化,
S6、把外包人员分为高中初3个等级,监控人员可以设定多个或更少的等级,系统根据外包评测人员上一周期的准确率分配等级,升降级限制:无跨级升降,即,当某一等级下完成的任务平均准确率大大高于或低于临近等级头时,只做临近头衔的升级或降级,准确率计算:每完成一定的任务量后计算一次周期准确率,用于调整评估者头衔,
S7、外包用户登录系统后,若是上周曾经做过监控任务(带有全部正确答案),则在每周的周一至周三看以查看监控任务中打分错误的题目,周三之后则不能查看,周四至周日,则不统计上周是否有错题,即便有错题,也不予以显示。
3.根据权利要求1或2所述的一种搜索引擎评估系统以及管理,其特征在于,所述任务分发模块进行了进一步的优化,将标注一致率超过半数以上的题目收回,不在发布到任务池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥科斯维数据科技有限公司,未经合肥科斯维数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710643237.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无人机上的定位器安装件
- 下一篇:一种无人机照明灯