[发明专利]一种文本检索的新方法在审

申请号：	202110130895.0	申请日：	2021-01-30
公开（公告）号：	CN112732944A	公开（公告）日：	2021-04-30
发明（设计）人：	卢奕南;赵延	申请（专利权）人：	吉林大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/242;G06N3/08
代理公司：	长春市恒誉专利代理事务所(普通合伙) 22212	代理人：	鞠传龙
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本检索新方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种文本检索的新方法，其方法包括的步骤为：第一部分、使用知识图谱中构造多关系下的实体表示词典集，从多个角度描述实体语义；第二部分、利用查询和文档集训练深度学习网络得到模型；第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索。本发明的有益效果：本发明引入多关系实体表示能够有效的引入先验知识，对于提高算法对语义的理解能力并且减少数据的使用需求有着重要作用。同时使用深度学习方法，合理的引入注意力机制将是深度学习算法优化的关键。最后，随着信息检索文献和方法的成熟，应用更有效的图谱实体学习方法和更合理的深度学习网络结构，将会实现文本及检索领域的更大突破。

技术领域

本发明涉及一种文本检索方法，特别涉及一种文本检索的新方法。

背景技术

目前，在过去的几年中深度学习模型和知识图谱表示推理有了很大的进展，并在各个领域取得了重要突破。深度学习网络因为其端到端的优秀提取特征能力，以及层数的叠加带来的计算收益在很多方面超越了传统的机器学习算法，在深度学习模型上发展的词向量和文本表示模型已经广泛的应用在自然语言的各种分支中。知识图谱能够描述实体的概念和实体之间关系，并构成巨大的网络关系图，其中的概念经过人工审核准确而可靠。通过知识图谱，能够准确的存储有关实体的知识，在问答和检索，实体连接等任务上都有可靠的表现。信息检索的目的是在庞大的文本库中寻找有效的模型及算法，信息检索领域取得的发展离不开机器学习和自然语言处理领域的取得的巨大突破。

发明内容

本发明的目的是利用现有的知识图谱表示方法和深度学习排序学习模型提出新的文本检索模型，以提高准确率而提供的一种文本检索的新方法。

本发明提供的文本检索的新方法，其方法包括如下步骤：

第一部分、使用知识图谱中构造多关系下的实体表示词典集，从多个角度描述实体语义，具体步骤如下：

步骤1、根据任务需要构造一个知识图谱，并由三元组进行表示，即包含主语、谓词和宾语的描述；

步骤2、采用基于网络表示学习中的DeepWalk的方法进行多关系的知识图嵌入，得到各个关系下的实体表示词典集；

第二部分、利用查询和文档集训练深度学习网络得到模型，具体步骤如下：

步骤1、构建训练集数据，同时将各检索问题和文档集进行各关系下的实体表示；

步骤2、网络输入多关系下的每对检索和文档的实体表示，构建相应的多个相似度矩阵；

步骤3、对每个矩阵进行基于高斯核的特征提取，并引入多头自注意力机制，提取各个关系下的特征；

步骤4、构建全连接层，求得各个特征的排序分数，计算出它们的平均值；

步骤5、利用Pairwise方法进行深度学习的训练；