[发明专利]一种问答系统中检索子模块的自动评价方法有效
申请号: | 201710469901.9 | 申请日: | 2017-06-20 |
公开(公告)号: | CN107301226B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 杨沐昀;郑德权;朱聪慧;张越;徐冰;曹海龙;赵铁军 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/06 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 蔡岩岩 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种问答系统中检索子模块的自动评价方法,属于模块自评价方法技术领域。通过针对检索出来的文档列表,根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示),通过机器学习模型(具体是GBDT),准确估计出这个检索结果的MAP值,从而完成最终的评价过程。具有评价确定度高,评价方法简洁等特点。适用于各种问答系统中检索子模块的自评价。 1 | ||
搜索关键词: | 问答系统 检索 子模块 自动评价 文档 机器学习模型 检索结果 特征表示 答案 参考 | ||
步骤一:根据问答系统中的文档集合输出文档排序列表,并根据置信度模型通过四种计算粒度获得每个文档对应的置信度,其中,所述文档集合包含问题文档和参考答案文档;
步骤二,根据精确率模型通过四种计算粒度获得每个文档的精确率,根据召回率模型通过四种计算粒度获得每个文档的召回率;
步骤三:针对问答系统中输入的待回答问题,在步骤一所述文档排序列表中自动寻找并获得与所述待回答问题相关的一系列相关文档;
步骤四:将步骤三所述一系列相关文档按照每个相关文档对应的置信度的数值从大到小顺序进行排序;
步骤五:利用步骤一获得的置信度、步骤二获得的精确率和召回率获取步骤四所述相关文档的特征值集合,形成特征文件;
步骤六:对GBDT模型进行模型训练,获得训练好的GBDT模型;
步骤七:将步骤五所述特征文件送入步骤六所述训练好的GBDT模型中进行MAP指标预测,获得预测结果,所述预测结果即为MAP预测值。
所述四种计算粒度为:
词:即自动分词结果;
字:即以汉字为单位进行计算,不进行分词处理;
二元字:每相邻的两个汉字为计算单位,不进行分词处理;
三元字:每相邻的三个汉字为计算单位,不进行分词处理。
2.根据权利要求1所述自动评价方法,其特征在于,所述步骤一所述置信度模型为:其中,qj表示排序列表Q={q1,q2......qn}中第j个查询词;n为常数;Doci表示置信度对应的文档;
表示查询词qj在文档Doci中的出现次数,
表示查询词qj在整个文档集中的出现次数,|Doci|表示该粒度下文档Doci中包含词的总数,|C|表示该粒度下文档集中词的总数;μ表示衡量文档集在计算置信度时的权重,μ为0时计算置信度仅考虑文档越大文档集在计算置信度时越重要。
其中,Ans表示所述文档排序列表对应的答案。
4.根据权利要求3所述自动评价方法,其特征在于,步骤二所述召回率的模型为:第一步:利用置信度、精确率和召回率获得所述相关文档与问题文档之间相关性的12个特征;
第二步:利用利用置信度、精确率和召回率获得所述相关文档与参考答案文档之间相关性的12个特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710469901.9/,转载请声明来源钻瓜专利网。
- 上一篇:短文本分类方法及装置
- 下一篇:基于人工智能的搜索信息解析方法及装置