[发明专利]一种融合文本概念化和网络表示的观点检索系统及方法在审
申请号: | 201810170047.0 | 申请日: | 2018-03-01 |
公开(公告)号: | CN108399238A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 廖祥文;陈国龙;刘德元;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;修斯文 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 网络表示 文档 查询 排序 检索系统 检索模块 检索 主题相似度 词汇节点 得分计算 概念层面 检索结果 输出文档 文本知识 用户查询 语义空间 语义联系 融合 投射 低维 解析 抽象 输出 学习 分类 融入 统一 | ||
本发明涉及一种融合文本概念化和网络表示的观点检索系统及方法。包括文本概念化模块,判断对应多个概念的实体在具体上下文中的概念;网络表示模块,把词汇节点投射到低维的语义空间中;观点检索得分计算模块,计算查询与文本的主题相似度得分、待查询文档的观点得分,并得到一个文档的综合得分;统一相关检索模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;排序学习检索模块,将文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。本发明能够高效将文本知识进行概念层面的抽象,能够解析查询和文本的语义联系,检索出与用户查询相关并带有对查询观点的文档。
技术领域
本发明涉及观点检索领域,更具体地,涉及一种融合文本概念化和网络表示的观点检索系统及方法,,能够结合知识图谱,高效地从社交媒体等文档集中检索出与给定查询相关,同时带有对查询的观点的相关文档列表。
背景技术
当前,有很多技术方法可用于观点检索。传统的观点检索方法将观点检索分为两个阶段,首先利用传统的信息检索模型或者语言模型得到主题相关的文档集合,接着利用观点分类器从主题相关文档中得到带有观点的文档,该类方法工作重点在于第二个阶段,但用于观点检索中缺少理论依据,效果也不够理想。
当前,存在着一些统一观点检索模型。将主题相关度和观点得分结合到统一的检索模型中,从传统的基于统计的检索模型出发,推导出统一的检索模型,模型包含了主题相关部分和观点相关部分。该类模型相对于两阶段模型,具有在理论上易解释、对信息需求表达更直接有效等优点。
当前,还存在着一些排序学习观点检索模型。该类模型将观点检索问题视为分类问题,提取文本特征、作者特征和主观性特征,采用排序学习框架对文本进行倾向性检索。一般而言,使用排序学习算法进行观点检索往往可以取得较高的精度,但是由于其需要大量的人工标注数据构建训练集,因此这一方法的应用场景相对于前两种方法而言较为有限。
然而,在社交媒体中,用户的查询输入通常较短,往往只是一个简单的词语,很难准确表达用户查询的信息需求,而目前的观点检索系统和方法在检索过程中往往无法根据上下文将词汇进行概念层面的抽象,并且在语义层面忽略词汇之间的语义联系,倾向性层面缺乏倾向性泛化能力。随着近年来互联网的高速发展,微博、论坛等社交媒体消息的不断产生,这就对观点检索技术提出了一个挑战:如何构建一个能充分解析查询和文本的信息需求和语义的观点检索系统来检索出符合用户查询需求的观点文档。因此,人们迫切希望有一种高效准确的观点检索方法,该方法能够理解用户查询信息需求,解析查询和文本的语义联系,检索出社交媒体中与用户查询相关的观点文档。
发明内容
本发明的目的在于提供一种融合文本概念化和网络表示的观点检索系统及方法,能够高效将文本知识进行概念层面的抽象,能够解析查询和文本的语义联系,检索出与用户查询相关并带有对查询观点的文档。
为实现上述目的,本发明的技术方案是:一种融合文本概念化和网络表示的观点检索系统,包括
一文本概念化模块,利用知识图谱将用户查询和待查询文档映射到概念空间,通过分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;
一网络表示模块,基于网络节点的网络表示学习,利用知识图谱中的结构化信息,学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;
一观点检索得分计算模块,在概念空间计算查询与文本的主题相似度得分,然后计算待查询文档的观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;
一统一相关检索模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;
一排序学习检索模块,将经由文本概念化模块、网络表示模块和观点检索得分计算模块得到文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810170047.0/2.html,转载请声明来源钻瓜专利网。