[发明专利]一种面向知识图谱构建的文本时间抽取与规范方法有效

专利信息
申请号: 201810072413.9 申请日: 2018-01-25
公开(公告)号: CN108304523B 公开(公告)日: 2021-11-09
发明(设计)人: 向阳;贾圣宾;吕东东;陈晓军 申请(专利权)人: 同济大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/289;G06F40/30
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 赵继明
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 知识 图谱 构建 文本 时间 抽取 规范 方法
【说明书】:

发明涉及一种面向知识图谱构建的文本时间抽取与规范方法,该方法包括以下步骤:构建时间信息知识库;根据时间信息知识库中的时间表达模板,从待识别文本中抽取时间短语、介词和时间方位词,依次自动地将每一个时间短语映射为绝对时间表达式;利用时间语义建模算法判定时间短语的语义类型;输出时间语义模型五元组TSM=(AT,RTP,PP,PD,ST)。与现有技术相比,本发明具有补充了知识图谱中知识元组关于时间信息方面的数据、解决时间信息映射问题和形成高质量的时间信息库等优点。

技术领域

本发明涉及大数据与自然语言处理领域的信息抽取方法,尤其是涉及一种面向知识图谱构建的文本时间抽取与规范方法。

背景技术

构成知识图谱的基本要素——知识元组,可以分为常识型知识和事件型知识,其中事件型知识具有很强的实时性,将时间信息集成到知识元组中才能完整准确地表达其中所蕴含的知识。对于从新闻文本中抽取出的事件型知识元组,对时效性要求较高,准确把握知识存在的时间语境,获取时间语义,对完善知识元组,构建知识图谱具有重要意义。

时间是客观存在的,但需要借助自然语言描述出来。时间信息是自然语言表达中必不可少的一种语义信息。人们的时间概念具有一致性,但对时间概念的描述却因语言的多样化而使得时间信息的表现形式具有灵活性和多样性。从而使得时间语言理解具有很大难度。同一个时间可以有多种表述形式,比如“2017年10月1日”,可以简写成“2017-10-1”,也可以写成“国庆节”、“十一”。时间语义信息会和上下文以及语意信息结合在一起,时间短语附加某些介词或方位词组合表达不同的时间语义。如“在12点时”表达了一个时点语义信息,“在12点以后”表达了一个时段语义信息。另外,用户对时间表述时参照基准不一产生“绝对时间”和“相对时间”两种,比如,绝对时间“2005年9月30日”在某些语境下可以描述为相对时间“明天”。绝对时间可明确地表示时间轴上确切的一点。相对时间需要一个参照点才能表达明确的时间信息,在不同的参照点下,相对时间所表达的时间信息不同。参考时间可以是消息文本内容时间,也可能是当前时间(即消息发布时间)。

时间信息主要以时间短语的形式出现。时间短语可描述2类时间对象:时点时间和时段时间,映射到时间轴上分别用点和区间来表示。时间短语是由时间基元构成的,时间基元即为时间要素的基本单元,如“2017年6月20日八点12分”由2017年、6月、20日、八点、12分五个时间基元构成。不同的时间基元表示不同的时间粒度,本文定义了五种不同的时间粒度,由粗至细分别为年(year)、月(month)、日(day)、时(hour)和分(minute)。

目前时间语义理解方面的研究水平较低。其中时间信息抽取相关研究较多,一般采用基于规则的方法或基于机器学习的方法,基于规则的方法简单,但很难手工制定准确且全面的规则体系。基于机器学习的模型训练必需要一定规模的标注好的训练数据,人工标注成本大。此外,由于时间信息表现形式灵活多样,导致中文时间信息映射存在诸多难点,如相对时间转化问题、不完整时间补全问题等,导致时间短语规范化效果欠佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种面向知识图谱构建的文本时间抽取与规范方法。

本发明的目的可以通过以下技术方案来实现:

一种面向知识图谱构建的文本时间抽取与规范方法,用于完善知识图谱中的知识元组的时间信息,从而提供更高质量的文本检索方式,所述的方法包括以下步骤:

S1、构建时间信息知识库;

S2、从待识别文本中抽取时间短语、时间短语前介词和时间短语后时间方位词,利用时间信息知识库依次自动地将每一个时间短语映射为绝对时间表达式;

S3、利用时间语义建模算法判定时间短语的语义类型;

S4、输出时间语义模型五元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810072413.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top