[发明专利]一种最长匹配资源映射方法有效
| 申请号: | 201910315880.4 | 申请日: | 2019-04-19 |
| 公开(公告)号: | CN110175268B | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | 姜明;张雯;张旻;汤景凡;戚铖杰;滕海滨 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9032 |
| 代理公司: | 33240 杭州君度专利代理事务所(特殊普通合伙) | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义 资源映射 词语 映射 检测 最长匹配 复合 预处理 知识库 文本 查询效率 检索效率 索引优化 语句解析 原始句子 组合资源 短语 邻域 语句 图谱 分类 | ||
本发明公开了一种最长匹配资源映射方法。本发明主要为了解决从文本中检测知识库和知识图谱中的资源时,难以检测复合语义资源的问题。本发明采用的技术方案是,为待检测的语句解析为词语流,为每一个词语寻找与其相关的语义资源,然后寻找尽可能多的与原始句子中词语相关的语义资源作为资源映射的结果。同时,为了提升分类的效率,本发明在语句被进行资源映射处理之前对文本做了一定的预处理,提高了检索效率。本发明针对复合语义资源在短语检测和资源映射阶段难以得到合理映射的问题,提出针对邻域中的多个词语的组合资源映射方案,提高了多个词语映射到一个复合语义资源的问题。同时,通过一定的索引优化,提高了查询效率。
技术领域
本发明涉及文本匹配领域,具体涉及一种最长匹配资源映射方法,一种从文本中检测已有标签并建立映射关系的方法。
背景技术
知识库和知识图谱已经被广泛的应用于搜索引擎和自动问答系统当中,以提升查询结果的准确率。为了避免传统搜索引擎只能机械通过关键字检索相关内容,结合知识库的搜索引擎或者问答系统需要理解用户的意图并寻找相应答案。例如对问题“杭州的简称是什么”给出答案“杭州的简称是杭”。
结合知识库的搜索引擎和自动问答系统的实现通常都始于从文本中检测知识库内的资源。资源映射问题可以解释为从一个自然语言句子中,寻找句子的一个子序列,这个子序列与知识库中的项目有极高的相似度。
现有方案能够从文本中严格或者近似匹配到短语并映射资源,但是这些局限于单个词语与资源标签之间的映射方案会错失将词语组合映射到复合词的可能。尽管这些方案都可能通过结构化查询语句构建等方式推理出对应的语义资源,但是这势必会增加语义处理的深度和知识图谱的复杂度。我们希望有一种尽可能简单的,在短语检测和资源映射阶段就能解决这个问题的方案。
发明内容
本发明的目的是针对现有技术的不足,提供一种最长匹配资源映射方法,以解决短语检测和资源映射算法在处理复合语义资源时的不足。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、使用对应语言的分析器将字符流分解为词语流;
步骤2、对于词语流中的每个词语wi,寻找其近义词wi,j并构成wi的一个近义词集ci,wi∈ci;
步骤3、寻找这个近义词集当中的词语wi,j能指向的所有资源,即该词语的相关资源集,
步骤4、根据给定的长度n,从左到右枚举每个词语流当中长度为n的局部词序列;
步骤5、针对单个词语滑动窗口wiwi+1...wi+n-1,枚举从中抽取至少两个词语的每一种组合,如(wi,wi+1),(wi,wi+2,...,wi+n-1);
步骤6、对于一种局部词序列中的词语组合wi...wj...wk,求这些词语的映射资源集合的交集即该词语组合下的资源映射结果,即
步骤7、针对步骤6当中任何非空的资源映射结果rrsstatus,记录下映射到rrsstatus的资源数量,映射到rrsstatus的词语wi,...,wi′,...wi″也称为rrsstatus的锚点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910315880.4/2.html,转载请声明来源钻瓜专利网。





