[发明专利]一种问答系统评价方法和装置有效
申请号: | 201710265734.6 | 申请日: | 2017-04-21 |
公开(公告)号: | CN108733712B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 林江华 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q10/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问答 系统 评价 方法 装置 | ||
本发明涉及一种问答系统评价方法、装置、电子设备和可读存储介质。其中所述问答系统评价方法包括:根据用户输入,通过邀评概率计算搜集测试语料;利用所述测试语料,通过聚类对问答系统进行测试;根据测试结果更新知识库。
技术领域
本发明涉及计算机领域,尤其涉及一种问答系统评价方法、装置、电子设备和可读存储介质。
背景技术
在人机交互过程中通常需要使用问答系统(Question Answer System,QA)。问答系统又称人机对话系统(Human-machine conversation,HMC),是指这样的一个机器系统:能够对于用户通过自然语言输入的问句,给出简洁、准确、人性化的回答,这种回答通常是指一小段文本。
现有的问答系统,大致可以分为:聊天机器人、基于知识库的问答系统、问答式检索系统、基于自由文本的问答系统等。基于知识库的问答系统为拥有一个或多个知识库,并利用检索、推理等技术,来理解与求解用户问题的问答系统,也被称为基于知识库的智能问答系统。
在对基于知识库的智能问答系统进行评价时,准确率、召回率是目前广泛应用于问答系统的两个度量值,用来评价问答系统的质量。其中准确率是回答正确问题数与回答上的问题总数的比率,衡量的是问答系统的查准率;召回率是指回答正确问题数和测试集中所有正确回答问题数的比率,衡量的是问答系统的查全率。其定义为:
正确率=回答正确问题条数/回答上的问题总数
召回率=回答正确问题条数/测试集中所有正确回答问题数
其中,两者取值在0和1之间,数值越接近1,查准率或查全率就越高。
现有技术中的问答系统评价方法主要有人工标注和用户评价两种,其中,
人工标注的步骤为:
1.通过网络搜索或聊天记录提取等方式,生成待测试集;
2.利用问答系统回答测试问题集中的问题,将答案附加到对应问题后,形成待标注数据;
3.标注人员对步骤2中生成的待标注数据进行判别,标注每个答案为正确或错误;
4.利用步骤3中的数据计算准确率和召回率。
用户评价系统的步骤为:
1.用户使用问答系统进行提问;
2.展示完问题后,向用户发送评价邀请,由其选择问题答案是否正确;
3.若步骤2中用户进行了选择,则将本次会话和用户选择进行记录;
4.利用步骤3中的数据计算准确率和召回率。
现有技术的方案中存在如下缺点:
1.在每次知识库调整后均需重新生成测试集;
2.标注人员在短时间内处理大量数据,可能因个人主观意图等因素引入错误;
3.邀评场景可能存在多轮问答,无法准确判断用户的评价针对哪个问答对;
4.邀评用户可能因个人主观意图、情绪因素等对问答效果进行错误评判;
5.仅判断问题和答案,无法排除由于知识库编写质量较差而导致不匹配的情况,给问答系统的评测带来额外因素。
发明内容
有鉴于此,本发明实施例提供一种问答系统评价方法、装置、电子设备和可读存储介质,能够提供一种更节省人工、准确率更高的测试集生成方式;排除由于知识库编写质量造成的评测异常;并且测试集可随时、自动地更新,并能被应用于现有的问答系统评价体系中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710265734.6/2.html,转载请声明来源钻瓜专利网。