[发明专利]一种基于常识和推理的中文缺失代词补全方法有效
申请号: | 201811345695.1 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109726389B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 佟见卓;李思;高升;杨婧璇;徐雅静 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文缺失代词补全方法,属于信息处理领域,该方法的特征包括:构建输入文本以及上下文文本矩阵;循环神经网络分别形成输入文本语义信息矩阵和输入文本上下文句子层面、词语层面语义背景矩阵;基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重;更新得到上下文句子层面语义信息矩阵;将结果融合输入文本矩阵;利用语义相似度得到输入文本上下文词语层面各句子重要程度的注意力权重;结合外部知识库更新词语注意力权重;结合句子注意力权重更新得到上下文语义信息矩阵;融合输入文本信息得到最终输入文本的推理信息矩阵;通过多层感知器得到层级式各词语的缺失代词概率分布;预测输入文本各词语缺失代词类型。 | ||
搜索关键词: | 一种 基于 常识 推理 中文 缺失 代词 方法 | ||
【主权项】:
1.一种基于常识和语义推理的中文缺失代词补全方法,其特征在于,所述方法包含以下结构和步骤:(1)向量化输入文本:对输入文本词语进行映射,将词语转化为相应词向量,输入已分词的输入文本即数值化为各个词语对应词向量连接而成的文本矩阵;(2)循环神经网络形成输入文本语义矩阵:对步骤(1)得到的文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本的语义信息,得到输入文本语义矩阵;(3)向量化输入文本上下文:对输入文本上下文词语进行映射,将词语转化为相应词向量,输入已分词的输入文本上下文即数值化为各个词语对应词向量连接而成的上下文文本矩阵;(4)循环神经网络形成输入文本上下文背景语义矩阵:对步骤(3)得到的上下文文本矩阵进行处理,利用循环神经网络编码各个词对应输入文本上下文的语义信息,此语义信息两个分支得到不同的背景语义矩阵:①输入文本上下文句子层面背景语义矩阵;②输入文本上下文词语层面背景语义矩阵;(5)基于语义相似度得到输入文本上下文句子层面各句子重要程度的注意力权重:对步骤(2)得到的输入文本矩阵和步骤(4)①得到的输入文本上下文句子层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文句子层面各句子重要程度的注意力权重;(6)基于注意力机制更新得到输入文本上下文句子层面语义信息矩阵:对步骤(4)①得到的输入文本上下文句子层面语义信息矩阵利用步骤(5)得到的句子层面注意力权重进行处理,通过注意力机制,得到更新后的上下文句子层面语义信息矩阵;(7)基于前向神经网络得到输入文本与上下文句子层面信息融合矩阵:对步骤(2)得到加入语义信息的输入文本矩阵和步骤(6)得到的输入文本上下文句子层面语义信息矩阵进行处理,利用前向神经网络,得到融合后的输入文本信息矩阵;(8)基于语义相似度得到输入文本上下文词语层面各词语重要程度的注意力权重:对步骤(7)得到的融合后输入文本信息矩阵和步骤(4)②得到的输入文本上下文词语层面语义信息矩阵进行处理,利用语义相似度模型,得到输入文本上下文词语层面各词语重要程度的注意力权重;(9)向量化从常识知识库中抽取的关键名词:从常识知识库中提取缺失代词附近常出现的名词,对名词排序抽取关键词,将关键词通过映射转化为相应词向量,连接得到关键名词矩阵;(10)基于常识知识库得到输入文本上下文词常识关键名词位置信息矩阵:将步骤(9)得到的关键名词词向量矩阵与步骤(3)得到输入文本上下文词向量矩阵进行处理,得到输入文本上下文常识关键名词位置信息矩阵;(11)基于注意力机制和常识关键词更新得到输入文本上下文词语层面语义信息矩阵:对步骤(8)得到的输入文本上下文词语层面各词语重要程度的注意力权重与步骤(10)得到的输入文本上下文词常识关键名词位置信息矩阵进行处理,得到更新后输入文本上下文词语层面各词语重要程度的权重,再将更新后的权重与步骤(4)②得到的输入文本上下文词语层面语义信息矩阵处理,得到更新的输入文本上下文词语层面语义信息矩阵;(12)基于点乘得到最终输入文本上下文信息矩阵:对步骤(5)得到的输入文本上下文句子层面各句子重要程度的注意力权重和步骤(11)得到的上下文词语层面语义信息矩阵进行处理,得到最终输入文本上下文信息矩阵;(13)基于前向神经网络得到输入文本与上下文信息融合推理矩阵:对步骤(2)得到加的入语义信息的输入文本矩阵和步骤(12)得到的输入文本上下文词语层面语义信息矩阵进行处理,利用前向神经网络,得到最终融合后的输入文本信息矩阵;(14)多层感知器得到层级式输入文本各词语缺失代词的概率分布:对步骤(13)得到的输入文本信息矩阵各个词向量对应的特征表示进行处理,利用多层感知机和层级式的分类标签,得到最终输入文本各词语缺失代词的概率分布;(15)使用概率分布预测输入文本各词语缺失代词类型:对步骤(15)得到的各词语的缺失代词的概率分布进行处理,在整体输入文本层面对各个词语的概率分布进行预测,得到输入文本各词语缺失代词类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811345695.1/,转载请声明来源钻瓜专利网。