[发明专利]规则化执行序列标注的方法、系统、电子设备及存储介质在审

专利信息
申请号: 202011509234.0 申请日: 2020-12-18
公开(公告)号: CN112632924A 公开(公告)日: 2021-04-09
发明(设计)人: 荆小兵;苑世娇;曹梦娣 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F40/169 分类号: G06F40/169;G06F40/211
代理公司: 青岛清泰联信知识产权代理有限公司 37256 代理人: 赵燕
地址: 200030 上海市徐汇区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 规则化 执行 序列 标注 方法 系统 电子设备 存储 介质
【说明书】:

发明公开了一种规则化执行序列标注的方法、系统、电子设备及存储介质,所述方法包括:基于通用编程语言,模拟Apache UIMA Ruta的语法设计DSL,根据DSL编写序列标注规则,具备良好的规则表达能力,且便于集成部署;根据序列标注规则,通过使用Apache UIMA Ruta的算法与正则表达式双引擎执行序列标注,对于简单的规则和复杂的规则采用不同的引擎,使得运行速度更快,提高了执行效率。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种规则化执行序列标注的方法、系统、电子设备及存储介质。

背景技术

随着近年来互联网等新兴媒体的快速发展,人类已经进入了信息爆炸的时代。同时也越来越希望计算机能够理解人类的语言,以更好地帮助人类完成各种日常工作,因此自然语言处理(natural language processing,NLP)成为了近年来的研究热点。序列标注是自然语言处理的常见任务,即把一个字符序列(句子)的各个字符,按照任务目标,打上相应的标记。比如中文分词、词性标注、实体识别、关系抽取等,都可以作为序列标注任务来处理。

基于模型和基于规则,是序列标注的两种主要方法。基于模型的方法,可以通过训练的过程,捕捉大量隐含的规则,而基于规则的方法,则是把显式的规则,直接编写成代码,模型可以有效利用数据,规则可以精细化调节,两种方法互为补充,通常配合使用。

正则表达式、通用编程语言和专用规则语言,是最常用的规则的表达形式,但这些方法各有不足:

1、正则表达式简明清晰,易于表示字符级规则,但词级别(Token level)的规则写起来过于复杂;

2、通用编程语言足够灵活,最直接的用法是分支语句(if-else)或多态分发(virtual method dispatch)来表达规则,命令式(imperative)执行,代码量大,规则太多的情况下,不易于维护;

3、专用规则语言,如Apache UIMA Ruta、TokenRegex和Gate Jape等,采用声明式(declarative)的语法设计,可以很方便的表达序列标注规则,缺点是需要专用的规则引擎,独自编译的规则语言与通用编程语言比较割裂,学习成本高,部署不够方便。

发明内容

本发明针对上述的技术问题,提出一种规则化执行序列标注的方法、系统、电子设备及存储介质。

第一方面,本申请实施例提供了一种规则化执行序列标注的方法,包括:

DSL设计步骤:基于通用编程语言,模拟Apache UIMA Ruta的语法设计DSL;

规则编写步骤:根据所述DSL编写序列标注规则;

序列标注步骤:根据所述序列标注规则,通过使用Apache UIMA Ruta的算法与正则表达式执行序列标注。

上述规则化执行序列标注的方法,其中,所述通用编程语言符合以下条件:支持闭包;支持操作符重载;支持动态执行;支持面向对象编程。

上述规则化执行序列标注的方法,其中,所述DSL设计步骤中,Apache UIMA Ruta的规则由匹配类型、量化参数、条件表达式和动作表达式构成。

上述规则化执行序列标注的方法,其中,所述Apache UIMA Ruta的规则如果能和输入匹配,则在匹配的序列上执行动作。

上述规则化执行序列标注的方法,其中,所述DSL设计步骤与所述规则编写步骤中均用到自定义标注器,在不使用规则DSL的情况下,直接将类型标注出来,标注的结果作为最终的输出或其他模块的输入。

上述规则化执行序列标注的方法,其中,所述序列标注步骤中,所述Apache UIMARuta的算法基于有限状态置换器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011509234.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top