[发明专利]时间词的抽取方法及装置在审
申请号: | 201810584615.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108829673A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 杨凯程;张青;程剑华;蒋宏飞 | 申请(专利权)人: | 北京玄一科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100012 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 预设 日期时刻 抽取 取出 文本 标签 语义 标记起始 标记终止 抽取规则 起始标签 配对 匹配 | ||
1.一种时间词的抽取方法,其特征在于,包括以下步骤:
获取待抽取时间词的文本;
在所述文本中抽取出与第一正则匹配的至少一个第一字符串,所述第一正则为用于识别日期/时刻/日期时刻的规则;
如果在所述文本中第一字符串之后的第一预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记起始标签;所述第一概念词至少具有一种语义用于表征从一个日期/时刻/日期时刻到另一个日期/时刻/日期时刻;
如果在所述文本中第一字符串之前的第二预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记终止标签;
将抽取出的标记有起始标签的第一字符串分别与标记有终止标签的第一字符串进行配对,生成区间时间词。
2.根据权利要求1所述的方法,其特征在于,将抽取出的标记有起始标签的第一字符串分别与标记有终止标签的第一字符串进行配对的步骤,包括:
获取标记有起始标签的第一字符串在所述文本中的结束位置;
获取标记有终止标签的第一字符串在所述文本中的开始位置;
如果在所述文本中所述结束位置在所述开始位置之前,则识别出所述结束位置和所述开始位置之间的第二字符串;
如果所述第二字符串包括所述第一概念词,并且总字符数小于第三预设数量个,则确定所述标记有起始标签的第一字符串和所述标记有结束标签的第一字符串相匹配。
3.根据权利要求1所述的方法,其特征在于,在所述文本中抽取出与第一正则匹配的至少一个第一字符串的步骤之后,还包括:
如果在所述文本中第一字符串之前或之后的第四预设数量个字符中包含预设的第二概念词,则为抽取出的第一字符串标记时间关系标签;所述第二概念词至少具有一种语义用于表征与时间之间的顺序关系;
如果第一字符串同时标记有时间关系标签和起始标签/终止标签,并且与标记有终止标签/起始标签的另一个第一字符串相匹配,则利用第二概念词、标记有起始标签/终止标签的所述第一字符串,以及标记有终止标签/起始标签的另一个第一字符串,生成带有关系信息的区间时间词。
4.根据权利要求3所述的方法,其特征在于,在为抽取出的第一字符串标记时间关系标签的步骤之后,还包括:
如果第一字符串仅标记有时间关系标签,或,如果第一字符串同时标记有时间关系标签和起始标签/终止标签并且不与其他任何一个标记有终止标签/起始标签的第一字符串相匹配,则利用第二概念词和标记有时间关系标签的第一字符串,生成带有关系信息的时间词。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
如果一个区间时间词中标记有起始标签的第一字符串与标记有终止标签的第一字符串均为第二时间词,则从标记有起始标签的第一字符串中提取出与所述区间时间词对应的开始时间,从标记有终止标签的第一字符串中提取出与所述区间时间词对应的结束时间;所述第二时间词包含至少一个用于表征时间的字段,并且最下位的字段所表征的时间是一个区间。
6.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
如果一个第一字符串与其他任一个第一字符串都不匹配,并且所述第一字符串为第二时间词,则从所述第一字符串中提取出对应的开始时间和结束时间;所述第二时间词包含至少一个用于表征时间的字段,并且最下位的字段所表征的时间是一个区间。
7.根据权利要求6所述的方法,其特征在于,从所述第一字符串中提取出对应的开始时间和结束时间的步骤,包括:
获取基准时间;
如果所述第一字符串符合预设的第四正则,则利用所述基准时间,以及与所述第四正则对应的提取规则,从所述第一字符串中提取出开始时间和结束时间。
8.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
如果一个第一字符串与其他任一个第一字符串都不匹配,并且所述第一字符串为第一时间词,则将所述第一字符串转化为预设的标准格式;所述第一时间词包含至少一个用于表征时间的字段,并且最下位的字段所表征的时间是一个确定的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司,未经北京玄一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810584615.1/1.html,转载请声明来源钻瓜专利网。