[发明专利]规则化执行序列标注的方法、系统、电子设备及存储介质在审
申请号: | 202011509234.0 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112632924A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 荆小兵;苑世娇;曹梦娣 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/211 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 规则化 执行 序列 标注 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种规则化执行序列标注的方法、系统、电子设备及存储介质,所述方法包括:基于通用编程语言,模拟Apache UIMA Ruta的语法设计DSL,根据DSL编写序列标注规则,具备良好的规则表达能力,且便于集成部署;根据序列标注规则,通过使用Apache UIMA Ruta的算法与正则表达式双引擎执行序列标注,对于简单的规则和复杂的规则采用不同的引擎,使得运行速度更快,提高了执行效率。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种规则化执行序列标注的方法、系统、电子设备及存储介质。
背景技术
随着近年来互联网等新兴媒体的快速发展,人类已经进入了信息爆炸的时代。同时也越来越希望计算机能够理解人类的语言,以更好地帮助人类完成各种日常工作,因此自然语言处理(natural language processing,NLP)成为了近年来的研究热点。序列标注是自然语言处理的常见任务,即把一个字符序列(句子)的各个字符,按照任务目标,打上相应的标记。比如中文分词、词性标注、实体识别、关系抽取等,都可以作为序列标注任务来处理。
基于模型和基于规则,是序列标注的两种主要方法。基于模型的方法,可以通过训练的过程,捕捉大量隐含的规则,而基于规则的方法,则是把显式的规则,直接编写成代码,模型可以有效利用数据,规则可以精细化调节,两种方法互为补充,通常配合使用。
正则表达式、通用编程语言和专用规则语言,是最常用的规则的表达形式,但这些方法各有不足:
1、正则表达式简明清晰,易于表示字符级规则,但词级别(Token level)的规则写起来过于复杂;
2、通用编程语言足够灵活,最直接的用法是分支语句(if-else)或多态分发(virtual method dispatch)来表达规则,命令式(imperative)执行,代码量大,规则太多的情况下,不易于维护;
3、专用规则语言,如Apache UIMA Ruta、TokenRegex和Gate Jape等,采用声明式(declarative)的语法设计,可以很方便的表达序列标注规则,缺点是需要专用的规则引擎,独自编译的规则语言与通用编程语言比较割裂,学习成本高,部署不够方便。
发明内容
本发明针对上述的技术问题,提出一种规则化执行序列标注的方法、系统、电子设备及存储介质。
第一方面,本申请实施例提供了一种规则化执行序列标注的方法,包括:
DSL设计步骤:基于通用编程语言,模拟Apache UIMA Ruta的语法设计DSL;
规则编写步骤:根据所述DSL编写序列标注规则;
序列标注步骤:根据所述序列标注规则,通过使用Apache UIMA Ruta的算法与正则表达式执行序列标注。
上述规则化执行序列标注的方法,其中,所述通用编程语言符合以下条件:支持闭包;支持操作符重载;支持动态执行;支持面向对象编程。
上述规则化执行序列标注的方法,其中,所述DSL设计步骤中,Apache UIMA Ruta的规则由匹配类型、量化参数、条件表达式和动作表达式构成。
上述规则化执行序列标注的方法,其中,所述Apache UIMA Ruta的规则如果能和输入匹配,则在匹配的序列上执行动作。
上述规则化执行序列标注的方法,其中,所述DSL设计步骤与所述规则编写步骤中均用到自定义标注器,在不使用规则DSL的情况下,直接将类型标注出来,标注的结果作为最终的输出或其他模块的输入。
上述规则化执行序列标注的方法,其中,所述序列标注步骤中,所述Apache UIMARuta的算法基于有限状态置换器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011509234.0/2.html,转载请声明来源钻瓜专利网。