[发明专利]缩简词的消歧方法和消歧设备在审
申请号: | 201611115210.0 | 申请日: | 2016-12-07 |
公开(公告)号: | CN108170662A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 宋双永;缪庆亮;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;吴琼 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消歧 参考 语义知识库 概率 文本 关联关系 文件频率 检索 查找 | ||
1.一种缩简词的消歧方法,包括:
针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
2.如权利要求1所述的方法,其中,所述缩简词包括英文缩写和中文简称。
3.如权利要求1所述的方法,其中,所述共现语义知识库通过如下步骤构建:
从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体;
统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF;
基于TF-IDF,选择上述其它实体中的部分实体作为参考实体;
基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
4.如权利要求3所述的方法,其中,还通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
5.如权利要求3所述的方法,其中,还从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
6.如权利要求3所述的方法,其中,所述缩简词实体与所述多个全称实体之间的对应关系、所述全称实体与所述参考实体之间的TF-IDF以资源描述框架RDF形式存在于关联数据linked data形式的所述共现语义知识库中。
7.如权利要求1所述的方法,其中,在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
8.如权利要求1所述的方法,其中,在未检索到参考实体的情况下,选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
9.如权利要求1所述的方法,其中,在未检索到参考实体的情况下,利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。
10.一种缩简词的消歧设备,包括:
查找装置,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
确定装置,被配置为:在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611115210.0/1.html,转载请声明来源钻瓜专利网。