[发明专利]一种问答系统中检索子模块的自动评价方法有效

申请号：	201710469901.9	申请日：	2017-06-20
公开（公告）号：	CN107301226B	公开（公告）日：	2018-06-15
发明（设计）人：	杨沐昀;郑德权;朱聪慧;张越;徐冰;曹海龙;赵铁军	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q10/06
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	蔡岩岩
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种问答系统中检索子模块的自动评价方法，属于模块自评价方法技术领域。通过针对检索出来的文档列表，根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示)，通过机器学习模型(具体是GBDT)，准确估计出这个检索结果的MAP值，从而完成最终的评价过程。具有评价确定度高，评价方法简洁等特点。适用于各种问答系统中检索子模块的自评价。 1
搜索关键词：	问答系统检索子模块自动评价文档机器学习模型检索结果特征表示答案参考
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种问答系统中检索子模块的自动评价方法，其特征在于，所述自动评价方法的具体步骤为：

步骤一：根据问答系统中的文档集合输出文档排序列表，并根据置信度模型通过四种计算粒度获得每个文档对应的置信度，其中，所述文档集合包含问题文档和参考答案文档；

步骤二，根据精确率模型通过四种计算粒度获得每个文档的精确率，根据召回率模型通过四种计算粒度获得每个文档的召回率；

步骤三：针对问答系统中输入的待回答问题，在步骤一所述文档排序列表中自动寻找并获得与所述待回答问题相关的一系列相关文档；

步骤四：将步骤三所述一系列相关文档按照每个相关文档对应的置信度的数值从大到小顺序进行排序；

步骤五：利用步骤一获得的置信度、步骤二获得的精确率和召回率获取步骤四所述相关文档的特征值集合，形成特征文件；

步骤六：对GBDT模型进行模型训练，获得训练好的GBDT模型；

步骤七：将步骤五所述特征文件送入步骤六所述训练好的GBDT模型中进行MAP指标预测，获得预测结果，所述预测结果即为MAP预测值。

所述四种计算粒度为：

词：即自动分词结果；

字：即以汉字为单位进行计算，不进行分词处理；

二元字：每相邻的两个汉字为计算单位，不进行分词处理；

三元字：每相邻的三个汉字为计算单位，不进行分词处理。

2.根据权利要求1所述自动评价方法，其特征在于，所述步骤一所述置信度模型为：

其中，q_j表示排序列表Q＝{q₁，q₂......q_n}中第j个查询词；n为常数；Doc_i表示置信度对应的文档；表示查询词q_j在文档Doc_i中的出现次数，表示查询词q_j在整个文档集中的出现次数，|Doc_i|表示该粒度下文档Doc_i中包含词的总数，|C|表示该粒度下文档集中词的总数；μ表示衡量文档集在计算置信度时的权重，μ为0时计算置信度仅考虑文档越大文档集在计算置信度时越重要。