[发明专利]基于旅游领域知识图谱的知识问答检索方法及装置有效
申请号: | 202010121654.5 | 申请日: | 2020-02-26 |
公开(公告)号: | CN111353030B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 曹菡;杨露 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F16/951 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 房鑫 |
地址: | 710119 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 旅游 领域 知识 图谱 问答 检索 方法 装置 | ||
1.一种基于旅游领域知识图谱的知识问答检索方法,其特征在于,包括以下步骤:
使用Python程序爬取旅游网站信息,构建旅游领域知识图谱;
用户输入与旅游相关的自然语言问句;
分析用户提出的自然语言问句,对自然语言进行分词,并对每个词语进行词性标注;
以“实体-属性-属性值”的形式存储知识图谱,将问句与知识图谱进行链接;
根据链接出的“实体”和“属性”,从知识图谱中查询相关三元组,并返回属性值;
所述“实体”和“属性”进行链接的方式为:根据已经标注好的词语词性识别出实体;将识别出的问句实体和知识图谱中的实体进行距离计算,选取距离最短的实体进行链接;使用神经网络模型链接问句和知识图谱中的属性,通过模型计算之后返回结果高的属性进行链接;
通过余弦相似度算法计算实体间的相似度,计算公式如下:
式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度;
由上式计算出两个实体之间的距离,通过比较,选择与问句实体距离最近的知识图谱中的实体进行链接;链接到实体和属性之后,遍历知识图谱中的三元组,选取能够同时匹配实体和属性的三元组,将该三元组中的属性值作为答案返回给用户;
所述的神经网络模型采用CNN模型,将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,选择最终结果的平均值高的属性链接。
2.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:构建旅游领域知识图谱包括两种实现方法,一种方法是使用Python程序爬取旅游网站信息,将抽取出的旅游实体批次导入Neo4j图数据库,将错误数据进行修改,对于空缺数据进行补齐,如果没有数据则使用null进行填充,并设置相关联实体集之间的属性,对设置好的数据进行处理得到“实体-属性-属性值”三元组;另一种方法是人工收集与旅游有关的实体和属性值,包括景点、酒店、美食、门票、景点等级、地址以及消费价格,手动添加到知识图谱当中。
3.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:采用结巴库对用户提出的自然语言问句进行分词和词性标注,将长句划分为一个一个的词语,并对词语进行词性标注;在此过程中,找出第一个词性为名词的词语,如果该词语的下一个词语还是名词,则将两个词语进行拼接,直至词性不是名词为止,将整合得到的词语输出。
4.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:
使用CNN模型进行属性链接的具体实现方法如下:
输入层设置;
1)将问句和属性分词,并去除问句中的停用词;
2)使用训练好的词向量模型计算问句中各词语和属性中各词语的相似度,训练词向量使用Google公司推出的word2vec模型,数据集使用中文维基百科数据;
3)将注意力机制加入输入层,在进行相似度计算之后根据相似度大小的不同进行加权,得到最终的相似度矩阵;所述的注意力机制公式如下:
Ai,j=score(Q[i,:],p[j,:])
式中,Q表示问句,i表示问句中的词语;p表示知识图谱中的属性,j表示属性中的词语;dis(i,j)表示i和j的相似度;
卷积层设置;
卷积层用于实现特征选取,设置滑动窗口来扫描输入层的矩阵,卷积层计算表达式如下:
式中,x表示相似度矩阵,n和m分别是矩阵的行数和列数;
池化层设置;
池化层用于从卷积层的输入中提取有效特征,进而丢弃不相关的数据,减少参数量;采用max-pooling方法实现池化层,将矩阵中两个连续的数字进行比较,抛弃其中小的数值;
输出层设置;
通过输入层将文本数据转化为相似度矩阵,卷积层对矩阵进行运算提取特征,池化层通过池化选择无关数据丢弃,最后进入输出层;输出层实现卷积层和池化层的全连接,经过多次循环,得到最终的矩阵;将结果中的数据进行平均运算并排序,得分最高的属性输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010121654.5/1.html,转载请声明来源钻瓜专利网。