[发明专利]一种基于常识和推理的中文缺失代词补全方法有效
申请号: | 201811345695.1 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109726389B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 佟见卓;李思;高升;杨婧璇;徐雅静 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 常识 推理 中文 缺失 代词 方法 | ||
1.一种基于常识和语义推理的中文缺失代词补全方法,其特征在于,所述方法包含以下步骤:
(1)向量化输入文本:输入已分词的输入文本,对输入文本进行映射,将词语转化为相应词向量,将各个词语对应词向量连接形成文本矩阵;
(2)利用循环神经网络形成输入文本语义信息矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络编码各个词在对应输入文本的语义信息,得到输入文本语义信息矩阵;
(3)向量化输入文本上下文:输入已分词的输入文本上下文,对输入文本上下文进行映射,将词语转化为相应词向量,将各个词语对应词向量连接形成上下文文本矩阵;
(4)利用循环神经网络形成输入文本上下文语义信息矩阵:对步骤(3)得到的上下文文本矩阵进行处理,利用循环神经网络编码各个词在对应输入文本上下文的语义信息,此语义信息包含两部分:①输入文本上下文句子层面语义信息矩阵;②输入文本上下文词语层面语义信息矩阵;
(5)基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重:对步骤(2)得到的输入文本语义信息矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文句子层面各句子重要程度的注意力权重;
(6)基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵:对步骤(4)①得到的输入文本上下文句子层面语义信息矩阵利用步骤(5)得到的句子层面注意力权重进行处理,通过注意力机制,得到更新后的上下文句子层面语义信息矩阵;
(7)基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵:对步骤(2)得到的输入文本语义信息矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行处理,利用前向神经网络,得到融合后的输入文本信息矩阵;
(8)基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重:对步骤(7)得到的融合后输入文本信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文词语层面各词语重要程度的注意力权重;
(9)向量化从常识知识库中抽取的关键名词:从常识知识库中提取缺失代词附近常出现的名词,对名词排序抽取关键词,将关键词通过映射转化为相应词向量,连接得到关键名词词向量矩阵;
(10)基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵:将步骤(9)得到的关键名词词向量矩阵与步骤(3)得到的上下文文本矩阵进行处理,得到输入文本上下文词常识关键名词位置信息矩阵;
(11)基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵:对步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重与步骤(10)得到的输入文本上下文词常识关键名词位置信息矩阵进行处理,得到更新后输入文本上下文词语层面各词语重要程度的权重,再将更新后的权重与步骤(4)②得到的输入文本上下文词语层面语义信息矩阵处理,得到更新的输入文本上下文词语层面语义信息矩阵;
(12)基于点乘得到最终输入文本上下文信息矩阵:对步骤(5)得到的输入文本上下文句子层面各句子重要程度的注意力权重和步骤(11)得到的输入文本上下文词语层面语义信息矩阵进行处理,得到最终输入文本上下文词语层面语义信息矩阵;
(13)基于前向神经网络得到输入文本与上下文信息融合矩阵:对步骤(2)得到的输入文本语义信息矩阵和步骤(12)得到的输入文本上下文词语层面语义信息矩阵进行处理,利用前向神经网络,得到最终融合后的输入文本信息矩阵;
(14)多层感知器得到层级式输入文本各词语缺失代词的概率分布:对步骤(13)得到的输入文本信息矩阵各个词向量对应的特征表示进行处理,利用多层感知机和层级式的分类标签,得到最终输入文本各词语缺失代词的概率分布;
(15)使用概率分布预测输入文本各词语缺失代词类型:对步骤(14)得到的各词语的缺失代词的概率分布进行处理,在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811345695.1/1.html,转载请声明来源钻瓜专利网。