[发明专利]一种应用税务领域的深度学习智能问答系统有效
| 申请号: | 201810964049.7 | 申请日: | 2018-08-23 |
| 公开(公告)号: | CN109241258B | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 张涛;薛胶 | 申请(专利权)人: | 江苏索迩软件技术有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
| 代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
| 地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 应用 税务 领域 深度 学习 智能 问答 系统 | ||
1.一种应用税务领域的基于模板匹配和深度学习智能问答系统,其特征在于:包括问题分析模块、问题理解模块和答案生成模块;
问题分析模块,利用自然语言处理NLP方法进行分析和理解问句;
问题识别模块,在问题分析模块的基础之上,通过对问题类型的分析,与问题模板进行匹配,判断问题的类型L;
答案生成模块,答案生成模块是根据问题类型生成相应的答案返回给用户,根据匹配到的问题类型依次从问答模板、知识库的检索和深度学习模型进行截断式的生成候选答案;
答案生成模块的问答模型的建立,具体过程为:
S1:基于网络爬虫抓取的税务咨询问答对数据集data1,税务局12366服务热线问答数据库db1,根据税务相关法律法规条例抽取的税务有关知识问答对数据集data2,构建基础库Database1,基于Database1构建深度学习税务词典库Dic1;
S2:基于S1中数据集data1和data2建立问答模板,构建基于AIML的模板问答模型Model1;
S3:基于S1中数据库db1,构建基于检索的模型Model2;
S4:从S1基础库Database1中抽取所有的来自同一用户至少进行两轮对话的问答对,并以四元组(上下文信息,问题,类标,答案)的形式保存至文本text1;
S5:将text1文本根据词典库Dic进行分词,根据word2vec模型生成BOW向量,对应的词向量文本保存为text2;
S6:根据词向量文本text2构建基于深度学习的答案自动生成模型Model3;
问题答案的生成,具体过程为:
根据匹配到的问题类型,并依据三个模型回答问题的精度,依次从模板模型Model1、知识库的检索模型Model2和深度学习模型Model3进行截断式的生成候选答案,截断式即如果问答模板中能够匹配到该问题,则直接将答案返回作为候选答案,而不再对知识库进行检索查询和通过深度学习模型进行生成答案;如果通过查询语句查询出的候选答案为一条,则直接将该答案作为最终答案进行返回;如果查询的候选答案为多条,对答案进行打分,首先对所有候选答案进行打分,打分过程为:首先根据答案覆盖问题关键词的个数与答案长度的比值进行打分,即将答案的分值设为目前的分值+覆盖关键词个数/答案中词的个数*w,其中w为相应的权值;其次根据关键词的位置及其词性进行打分,如果答案中某个关键词与问题中相应的关键词的先后位置和词性均相同则加1分,否则加0分,并根据分值从大到小对候选答案进行排序选择前N个答案返回,并取第一个答案最为最优答案,其余作为相似答案;
深度学习模型的建立,具体过程为:
S1:在基础库Database1中抽取来自同一个用户的至少进行多两轮对话的问答对,以四元组(上下文信息, 问题, 类标, 答案)的形式进行组织;
S2:将四元组中的前三元作为输入,最后一元作为输出,输入到基于多层前向神经网络的深度学习Encoder-Decoder模型进行训练,其中上下文信息Context作为bc参数、问题message与类标label进行合并作为bml参数进行输入,生成的中间编码信息Ki,并作为后续RNN模型隐层的一个输入,Ki计算公式为:
其中为具有L层的多层神经网络的权重,其初始值为随机设置,σ为logisticsigmoid激活函数;
其中T为向量转置的符号,bc为上下文信息Context的向量表示,bml为问题message与类标label合并后的向量表示,为(l-1)层编码信息的转置;
S3:设解码器Deconder在t时刻隐层的输出为Ht,计算公式为:
其中st为message中第t个词的BOW词向量,Wi为前一时刻的输出与解码器隐层节点的连接权重,初始值随机设置,Whh为隐层与自身连接的权重,初始值随机设置,Ht-1T为(t-1)层解码器的输出向量的转置;
S4:解码器在t时刻的最终输出Ot为隐层输出Ht乘以其与输出层的权重Wo,即:
其概率为:
p(st|s1,...,st-1,Context,Message,L)=softmax(Ot)
S5:最后将生成的每个词按先后顺序连接,便是最终答案;最终答案的概率表示为:
上式最大的输出单词序列便是最终答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏索迩软件技术有限公司,未经江苏索迩软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810964049.7/1.html,转载请声明来源钻瓜专利网。





