[发明专利]一种文本中时间信息的处理方法有效

专利信息
申请号: 201810337183.4 申请日: 2018-04-16
公开(公告)号: CN108549694B 公开(公告)日: 2021-11-23
发明(设计)人: 王清琛;李辰刚 申请(专利权)人: 南京云问网络技术有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/38;G06F40/154;G06F40/211;G06F40/247;G06F40/253;G06F40/289
代理公司: 暂无信息 代理人: 暂无信息
地址: 211100 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种文本中时间信息的处理方法。包括:构造时间节点、操作符、标记映射关系表、时间本体知识库、子树规则和子树规则集合;对文本进行分词处理,得到分词单位序列,并构造空标记序列和时间节点槽;采用标记映射关系表对分词单位序列进行标记,填充标记序列;用当前子数集合扫描标记序列,获取匹配结果;搜索子树规则集合得到子树序列;按照子树用操作符解析操作树;用连接操作符对毗邻片段进行连接操作;判断是否有未匹配的子树规则集合,若有,则继续匹配;若否则对时间对象的数值进行推理、解析和转换,然后将其转换为输出格式的时间对象。本发明可以增强计算机对文本中时间信息的理解能力。
搜索关键词: 一种 文本 时间 信息 处理 方法
【主权项】:
1.一种文本中时间信息的处理方法,其特征在于,包括以下步骤:1)构造时间信息识别所需的时间节点、操作符、标记映射关系表、时间本体知识库、子树规则和子树规则集合;所述时间节点为生成具体时间的步骤记录;所述“操作符”包括零元操作符,一元操作符和二元操作符;所述“标记映射关系表”是分词单位和标记的对应关系表,所有标记构成标记集合;所述时间本体知识库包括对可出现在标记映射关系表中的时间词,时间本体知识库中包括词语、时间节点信息知识、对应操作符、类别和同义词信息;所述子树规则包括对应标记序列、操作数位置、操作符的位置、操作规则和附加操作规则;所述子树规则集合包括将所述子树规则化分所形成的第1子树规则集合,第2子树规则集合……第n子树规则集合;2)使用分词算法对待分析文本进行分词处理,得到分词单位序列,并构造空标记序列和时间节点槽;3)采用步骤1)中标记映射关系表对步骤2)获得的分词单位序列进行标记,填充标记序列;4)采用模式匹配算法,将步骤3)中得到的标记序列与一个子树规则集合中的子树规则进行匹配;若匹配到,则将匹配的子树规则,子树规则开始位置,子树规则结束位置信息存入候选子树信息列表;若未匹配到,则跳转至步骤8);5)从步骤4)中的候选子树信息列表中选择子树规则,得到子树规则序列;6)对步骤5)中子树规则序列中的每棵子树,根据子树对应的规则,使用操作符生成对应的时间节点;若生成零个时间节点,则不修改,否则用得到的时间节点填充到时间节点槽内整个子树覆盖的范围;7)对毗连的子树执行规则,使用“合并”操作符自左至右对相连的时间节点进行操作,若生成零个时间节点,则不操作,否则用得到的时间节点填充到对应词语的时间节点槽中;8)判断当前是否有可使用的子树规则集合。如果还有子树规则集为未在文本上进行匹配,则转到步骤4),否则所有子树规则集合匹配完毕,调转到步骤9);9)利用基准时间表,对时间节点的数值进行推导、解析和转换,所述基准时间表包含背景基准时间和当前基准时间,所述背景基准时间表示当前说话的背景时间,所述当前基准时间表示当前文本中已经明确的时间;10)将上述时间信息转换为用户系统中对应的时间信息格式并输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810337183.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top