[发明专利]一种筛选问答对并实时更新问答库的方法及系统在审
| 申请号: | 201410743891.X | 申请日: | 2014-12-08 |
| 公开(公告)号: | CN104679815A | 公开(公告)日: | 2015-06-03 |
| 发明(设计)人: | 崇伟峰 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
| 地址: | 100191 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 筛选 答对 实时 更新 问答 方法 系统 | ||
技术领域
本发明涉及计算机自然语言处理技术,尤其涉及一种筛选问答对并实时更新问答库的方法及系统。
背景技术
在电商自动问答系统中,问答库是问答系统中的重要数据来源,高质量、高覆盖率的问答库能够提高问答系统的准确率。
目前创建问答库的方法可以分为手工创建和自动创建2种方式。
现有自动创建问答库的方案:将聊天记录根据参与者分割成小片段,然后从每一个小片段中将咨询者的发言作为问题,将客服人员随后的话作为答案,去掉答案频率低的问答对,然后将相似的答案及其对应的问题组成一个问答组。
上述创建问答库的实现方案有着诸多缺点,并不能解决实际应用中对问答知识库的实际需求。现有自动创建问答库的不足:
首先,上述方案所抽取的一组相似答案及其对应的问题有可能并不同质。例如“好的,请稍等”这种回答在客服中很常见,但是对应的问题可能很多,上述方案将这些问题不加区分的聚合在一起是不合理的。
其次,仅仅根据咨询者和客服的身份来抽取问答对会严重影响问答库的质量。在实际的客服聊天记录中并不一定是一问一答,有可能咨询者会连续问几个问题,客服然后依次回答。通过上述方案抽取的问答对会严重影响问答知识库的质量。
再次,根据答案频率筛选问答对,会使得知识库的覆盖率大大降低。在日常对话尤其是客服聊天记录中,为了追求个性化和简洁性,对话出现的频率呈现长尾现象,将近一般的答案只出现一次。上述方案通过去掉答案频率低的问答对,会大大降低知识库的覆盖率。
发明内容
本发明所解决的技术问题是提供一种筛选问答对并实时更新问答库的方法及系统,能够提高问答库的覆盖率、问答库的质量,并能实现问答库的增量、实时更新。
所述方法步骤如下:
步骤1,将客服聊天记录解析成标准格式的聊天记录;
步骤2,从标准格式的聊天记录中筛选出问答对;
步骤3,根据问答对的问题和答案,检查合法问答对库中是否存储有相同的合法问答对,若是,执行步骤4;否则,执行步骤5;
步骤4,更新所述合法问答对库中所述合法问答对的统计信息,并更新与所述合法问答对对应的复述问答对库中的复述问答对的统计信息,结束处理;
步骤5,根据所述问答对中的问题和答案,查找复述问答组库中的复述问题组和复述答案组,得到与问答对对应的问题ID和答案ID,根据问题ID和答案ID,检查复述问答对库中是否存储有问题ID和答案ID组成的复述问答对,若是,执行步骤6;否则,执行步骤7;
步骤6,根据所述问答对中的问题和答案在合法问答对库中创建新的合法问答对,并更新与新的合法问答对对应的复述问答对库中的复述问答对的统计信息,结束处理;
步骤7,计算问答对中问题和答案的匹配程度值,将所述匹配程度值与预设阈值相比较,根据比较结果创建新的创建新的合法问答对或候选问答对,结束处理。
本发明提供的一种筛选问答对并实时更新问答库的系统,所述系统包括对话解析模块、问答对筛选模块、重复检测模块、合法问答对更新模块、复述问答对处理模块、复述问答对更新模块和匹配程度值计算模块;
所述对话解析模块,用于将客服聊天记录解析成标准格式的聊天记录;
所述问答对筛选模块,用于从标准格式的聊天记录中筛选出问答对;
所述重复检测模块,用于根据问答对的问题和答案,检查合法问答对库中是否存储有相同的合法问答对,若是,将所述问答对发送到合法问答对更新模块;否则,将其发送到复述问答对处理模块;
所述合法问答对更新模块,用于更新所述合法问答对库中所述合法问答对的统计信息,并更新与所述合法问答对对应的复述问答对库中的复述问答对的统计信息;
所述复述问答对处理模块,用于根据所述问答对中的问题和答案,查找复述问答组库中的复述问题组和复述答案组,得到与问答对对应的问题ID和答案ID,根据问题ID和答案ID,检查复述问答对库中是否存储有问题ID和答案ID组成的复述问答对,若是,将所述问答对发送到复述问答对更新模块;否则,将其发送到匹配程度值计算模块;
所述复述问答对更新模块,用于根据所述问答对中的问题和答案在合法问答对库中创建新的合法问答对,并更新与新的合法问答对对应的复述问答对库中的复述问答对的统计信息;
所述匹配程度值计算模块,用于计算问答对中问题和答案的匹配程度值,将所述匹配程度值与预设阈值相比较,根据比较结果创建新的合法问答对或候选问答对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司;,未经北京云知声信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410743891.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索结果排序方法及装置
- 下一篇:过滤应用内容的方法和系统





