[发明专利]语义确定方法及相关设备有效
| 申请号: | 201811145809.8 | 申请日: | 2018-09-29 |
| 公开(公告)号: | CN110969022B | 公开(公告)日: | 2023-10-27 |
| 发明(设计)人: | 戚成琳;徐文斌 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/36;G06F16/951 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜;王宝筠 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义 确定 方法 相关 设备 | ||
本发明公开了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,如果目标关键词的统一资源标识符为多个,则说明该目标关键词存在歧义,进而依据每个统一资源标识符所对应的信息节点在知识图谱中的语义关系,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,以消除目标关键词的歧义含义,进而明确目标关键词指向知识图谱中哪个具体的实体信息节点,也即明确目标关键词在目标文件语境中的实际含义。另外,本申请还提供了语义确定相关装置,以保证上述方法在实际中的应用及实现。
技术领域
本发明涉及自然语言处理处理技术领域,更具体地,是语义确定方法及相关设备。
背景技术
互联网中存在大量的数据文本,如新闻、论文、微博文章等等。这些数据文本中包含有实体指称,用户在浏览数据文本时,可能想要查看这些实体指称的一些关联信息。但是,由于自然语言表达方式的多样性及歧义性,从字面含义上来看,同一实体指称可能对应多个不同含义的实体对象,不同实体对象的关联信息是不同的。
例如,用户浏览一篇介绍汽车的新闻时,新闻中出现了一款名为“阳光”的汽车,但从字面含义上来看,“阳光”这一实体指称可能指自然界的太阳光,也可能指某一款具体型号的汽车。
在一些应用场景中,需要对数据文本中的实体指称执行与应用场景相关的处理。因此,需要一种技术方案,来明确文本中的实体指称所指代的真实含义。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语义确定方法。
第一方面,本申请提供了一种语义确定方法,包括:
获得目标文件;
获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
第二方面,本申请提供了一种语义确定装置,包括:
目标文件获得单元,用于获得目标文件;
关键词词典获得单元,用于获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
目标关键词匹配单元,用于使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
节点信息确定单元,用于根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
语义确定单元,用于根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
第三方面,本申请提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现语义确定方法。
第四方面,本申请提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行语义确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811145809.8/2.html,转载请声明来源钻瓜专利网。





