[发明专利]时间词的抽取方法及装置在审
申请号: | 201810584615.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108829673A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 杨凯程;张青;程剑华;蒋宏飞 | 申请(专利权)人: | 北京玄一科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100012 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开一种时间词的抽取方法及装置,方法包括:获取待抽取时间词的文本;在文本中抽取出与第一正则匹配的至少一个第一字符串,第一正则为用于识别日期/时刻/日期时刻的规则;如果在文本中第一字符串之后的第一预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记起始标签;第一概念词至少具有一种语义用于表征从一个日期/时刻/日期时刻到另一个日期/时刻/日期时刻;如果在文本中第一字符串之前的第二预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记终止标签;将抽取出的标记有起始标签的第一字符串分别与标记有终止标签的第一字符串进行配对,生成区间时间词。该方法抽取规则简单,抽取准确。 | ||
搜索关键词: | 字符串 预设 日期时刻 抽取 取出 文本 标签 语义 标记起始 标记终止 抽取规则 起始标签 配对 匹配 | ||
【主权项】:
1.一种时间词的抽取方法,其特征在于,包括以下步骤:获取待抽取时间词的文本;在所述文本中抽取出与第一正则匹配的至少一个第一字符串,所述第一正则为用于识别日期/时刻/日期时刻的规则;如果在所述文本中第一字符串之后的第一预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记起始标签;所述第一概念词至少具有一种语义用于表征从一个日期/时刻/日期时刻到另一个日期/时刻/日期时刻;如果在所述文本中第一字符串之前的第二预设数量个字符中包含预设的第一概念词,则为抽取出的第一字符串标记终止标签;将抽取出的标记有起始标签的第一字符串分别与标记有终止标签的第一字符串进行配对,生成区间时间词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司,未经北京玄一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810584615.1/,转载请声明来源钻瓜专利网。