[发明专利]一种基于部首特征和多层注意力机制的中文自动问答方法在审

专利信息
申请号: 202111325158.2 申请日: 2021-11-10
公开(公告)号: CN114118099A 公开(公告)日: 2022-03-01
发明(设计)人: 潘建;祝训醉;吕思睿;李芋江 申请(专利权)人: 浙江工业大学
主分类号: G06F40/35 分类号: G06F40/35;G06F40/295;G06F40/284;G06F40/268;G06K9/62;G06N3/04;G06N3/08
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 赵芳
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 部首 特征 多层 注意力 机制 中文 自动 问答 方法
【说明书】:

一种基于部首特征和多层注意力机制的中文自动问答方法,包括以下步骤:步骤1、对数据集进行预处理;步骤2、得到词嵌入矩阵,通过随机初始化得到部首嵌入矩阵;步骤3、通过词嵌入和部首嵌入将词语分别转化为向量表示,在词语向量后追加语言学特征;步骤4、将文档向量序列问题向量序列分别输入至不同的双向RNN网络进行编码;步骤5、根据文档向量序列与问题向量,依次计算得到答案开始和结束边界的概率,生成目标概率分布,步骤6、使用数据集对模型训练N轮,通过计算损失并对参数进行更新,使用mini‑batch策略对模型进行训练,使用模型对给定的一个文档和与之相关的问题进行处理,预测得到答案。本发明提高了自动问答的准确率。

技术领域

本发明涉及到一种基于部首特征和多层注意力机制的中文自动问答方法。

技术背景

自动问答是指用户以自然语言提问的形式提出信息查询需求,系统依据对问题的分析,从各种数据资源中自动找出准确的答案,该技术能够有效解决传统检索过程中难以准确定位答案的问题。机器阅读理解作为自动问答技术中的一种新方法,无需建立大规模的问答知识库,从而降低了知识库构建、维护和运营的成本。但是,现有方法大多使用中文词向量作为模型的输入,准确率方面难以满足用户的需求。

发明内容

为克服现有技术的不足,本发明提供了一种基于部首特征和多层注意力机制的中文自动问答方法,通过增加中文汉字的部首特征,并使用多层注意力机制对模型进行优化,有效提高了自动问答的准确率。

本发明所采用的技术方案是:

一种基于部首特征和多层注意力机制的中文自动问答方法,包括以下步骤:

步骤1、对数据集S进行预处理,数据集S表示为{Si|Si=(Passage,Question,Answer),1≤i≤n},其中Si表示第i个数据,由文档Passage、问题Question和答案Answer三部分组成,answer是passage的子串,n为数据集S的大小,所进行的数据预处理包括中文分词、语言学特征标注、统计词语词频信息;

步骤2、加载预训练的word embedding得到词嵌入矩阵WEl×d,通过随机初始化得到部首嵌入矩阵REk×r,其中l为word embedding中词语的数量,d表示词向量的维度,k表示部首字典中部首的数量,r表示部首嵌入的维度。部首嵌入矩阵RE为模型训练参数。

步骤3、通过词嵌入和部首嵌入将文档Passage的词汇列表PWList、问题Question的词汇列表QWList中的词语分别转化为向量表示,然后在词语向量后追加语言学特征,得到PWList、QWList的向量序列表示vPWList、vQWList,过程如下:

(3.1)将PWList中的词语pwordi转化为向量表示其中WE(word)表示词语word对应的词向量,radical(word)=[radicalDict(w1),…,radicalDict(wwcnt(word))]表示词语word的部首列表,radicalDict(wi)表示从部首字典radicalDict中得到汉字wi对应的部首,wcnt(word)表示词语word的汉字数,RE(radical(word))表示词语word中汉字部首对应的部首向量组成的矩阵,表示向量拼接,c代表卷积输出通道数,最终vpwordi的维度为1×(2d+c+4),函数CNN_RE()、fmat()、ftoken()、falign()返回的结果均为向量,falign()函数的计算为第一层注意力机制的处理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111325158.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top