[发明专利]一种基于哈希学习的问答系统构建方法有效
申请号: | 201910361175.8 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110110063B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 李武军;徐栋 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 问答 系统 构建 方法 | ||
本发明公开了一种基于哈希学习的问答系统构建方法,可以达到在线问答场景下模型精度高、内存开销低且响应时间短的效果。该方法首先根据问答系统的应用场景收集问答训练集,再结合深度学习技术构造端到端的问答系统网络模型,在训练集上通过机器学习优化算法训练模型。在系统部署前,通过答案收集算法收集答案知识库,使用训练好的问答系统网络模型计算答案知识库中答案的二值矩阵表示。在线部署时,对于收到的问题,首先使用问答系统网络模型进行问题编码,然后问答系统网络模型根据问题的编码和答案的二值矩阵表示计算问题和答案的匹配程度。最后根据答案知识库中的答案与问题的匹配程度对答案进行排序,将排在前面的答案作为响应返回给用户。
技术领域
本发明涉及一种基于哈希学习的问答系统构建方法,涉及到文本数据处理技术,用于实现在线问答场景下保持高精度的同时,利用低内存开销实现高效问答。
背景技术
随着互联网技术的发展,人们获取知识的途径也变得多样化。其中问答是一种友好且便捷的方式,可以免除人们阅读文档的过程,直接将用户所需要的内容返回给用户。问答是科学领域中具有挑战性的研究方向,是自然语言处理领域长期以来重点关注的任务,其具体内容是根据给定的问题返回回答问题的答案。同时问答也是工程领域中的重要应用技术,在现实中有很多具体的应用,包括语音助手、智能音箱、在线智能客服等。这些应用给人们的生活带来了很大的便利。
大多数的问答研究工作主要关注于增强问题和答案之间的交互,提高模型的效果,却很少考虑模型的时空效率。实际上,现有的这些具有问题答案交互机制的模型在在线预测场景下基本都存在内存开销问题或时间开销问题。而不采用问题答案交互机制的模型虽然不存在内存开销问题或时间开销问题,但是模型的效果会明显下降。因此设计一个预测准确率高且可以降低内存开销、时间开销的问答系统至关重要。
发明内容
发明目的:为了解决现有技术中存在的问题与不足,本发明利用哈希学习技术对答案的实值矩阵表示,即答案全连接层的输出,进行压缩。在提高问答系统在线预测效率、保证模型精度的同时,又降低了内存的开销。
技术方案:一种基于哈希学习的问答系统构建方法,具体包括以下步骤:
1)当有和问答系统应用场景相关的公开问答数据集或自己标注的问答数据集时,直接使用该数据集训练模型,当缺少训练数据时,从互联网数据中构造问答训练集;
2)根据问答训练集,构建并训练问答系统网络模型;
3)通过答案收集算法收集答案并构建答案知识库;
4)使用问答系统网络模型计算答案知识库中答案的二值矩阵表示,建立答案二值矩阵表示数据库;
5)对于问答系统接收到的问题,使用问答系统网络模型计算问题编码,然后问答系统网络模型根据问题编码和答案二值矩阵表示计算问题和答案的匹配程度,再基于匹配程度对答案进行排序;
6)当答案知识库中没有合适的答案时,答案收集算法根据问题重新收集答案,然后使用问答系统网络模型计算其二值矩阵表示,更新到答案知识库和答案二值矩阵表示数据库中;
7)根据答案排序的结果和系统要求做出响应。
上述步骤1)的过程为:如果存在和问答系统应用场景相关的公开问答数据集或自己标注的问答数据集时,直接使用该数据集训练模型;当不存在标注问答训练集时,首先收集互联网上相关领域的问题集,通过文本分类技术对问题集进行筛选,然后使用阅读理解技术生成问题的答案,经过后处理生成问答训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910361175.8/2.html,转载请声明来源钻瓜专利网。