[发明专利]缩简词的消歧方法和消歧设备在审

专利信息
申请号: 201611115210.0 申请日: 2016-12-07
公开(公告)号: CN108170662A 公开(公告)日: 2018-06-15
发明(设计)人: 宋双永;缪庆亮;孟遥 申请(专利权)人: 富士通株式会社
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 康建峰;吴琼
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 消歧 参考 语义知识库 概率 文本 关联关系 文件频率 检索 查找
【说明书】:

发明公开了一种缩简词的消歧方法和消歧设备。该消歧方法包括:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF‑IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF‑IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。

技术领域

本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种能够为处理文本中的对应于多个全称的缩简词准确地确定所对应的单个全称的消歧方法和消歧设备。

背景技术

在自然语言中,经常出现缩简词,即相对于全称,经缩减后的缩写或简称。例如,在中文中,“海南航空股份有限公司”可以简称为“海航”,“海上航行”也能简称为“海航”。在英文中,“Machine Learning”可以缩写为“ML”,“Malcolm Lincoln”也可以缩写为“ML”。

由于缩简词存在着与全称的一对多情形,所以在自然语言处理中,缩简词的歧义消除(以下简称为消歧)就成为必须解决的问题,是词义消歧中的重要的子任务。在机器翻译、语音问答等应用中,缩简词的消歧的难度较大。然而,如果不能实现缩简词的消歧,自然语言处理的结果的可读性不佳。例如,在从英文到中文的机器翻译应用中,翻译结果是包括没有任何翻译的英文缩写的中文句子。这样的句子会让用户看起来不伦不类,有未处理完成之感,甚至让人无法理解翻译结果的意思。例如,“ML是一位令人尊敬的歌手。”。

传统的方法例如从缩简词的上下文中查找该缩简词的真实含义。然而,该方法的问题在于缩简词的上下文中并不总包含其真实含义。

因此,本发明旨在准确地将具有歧义的缩简词对应到正确的实体。

发明内容

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

本发明的目的是提出一种能够对具有歧义的缩简词进行消歧的方法和设备。

为了实现上述目的,根据本发明的一个方面,提供了一种缩简词的消歧方法,该方法包括:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。

根据本发明的另一个方面,提供了一种缩简词的消歧设备,该设备包括:查找装置,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;确定装置,被配置为:在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。

另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611115210.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top