[发明专利]一种将规范文本自动转为可计算逻辑规则的方法及系统有效
申请号: | 202110178180.2 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112764762B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 林佳瑞;周育丞;郑哲;陆新征 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F16/35;G06F40/117;G06F40/253;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 王胥慧 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 规范 文本 自动 转为 可计算 逻辑 规则 方法 系统 | ||
本发明涉及一种将规范文本自动转为可计算逻辑规则的方法及系统,其特征在于,包括以下内容:1)对规范文本进行语句分割,并对分割得到的若干语句进行预处理,筛选出可转换的规范语句;2)采用深度神经网络模型,通过BIO标注格式为可转换的规范语句中的单词或短语加上语义标签,得到带有标签的语句;3)采用上下文无关文法,基于对P‑R范式及其递归用法的识别,对带有标签的语句进行解析,将带有标签的语句转换为规则检查树;4)将规则检查树转换为特定格式的语言,本发明可以广泛应用于建筑业与信息技术交叉领域中。
技术领域
本发明是关于一种将规范文本自动转为可计算逻辑规则的方法及系统,属于建筑业与信息技术交叉领域。
背景技术
建筑环境的整个生命周期受各种法规、规范和标准的约束,手工进行合规性审查的流程既耗时,成本高昂又易于出错。作为手工检查的替代方案,自动合规性审查(Automated Compliance Checking,ACC)能极大地促进建筑、工程和施工行业的设计过程。当前,随着设计复杂性的不断增加,ACC在设计过程中变得至关重要,且已被广泛研究,但是,目前在实际项目中很难观察到ACC的应用。大多数现有的ACC系统均是特定领域专用的或基于硬编码机制的方法,这类方法,例如新加坡的项目电子计划与文档提交系统(CORENET)以及广泛使用的模型质量分析检查软件(Solibri Model Checker,SMC)程序,维护代价均十分高昂且难以修改,也因此通常被称为黑盒方法[7]。
在规则审查过程中,最重要且最复杂的阶段是规则解译,即将文本形式的规则转化为计算机可处理的格式,因此,许多研究提出自动化或半自动化的方法进行文本规则转换以支持ACC。在半自动化方法方面,现有技术公开了通过使用四个标记运算符(Requirement,applies,select,exception)的方法对文本标记进行文本软编码,以帮助领域专家制定适用的规则而无需程序员的帮助;研究人员提出适用于工业基础类(IFC)这一数据标准的ACC框架,该框架利用语言集成查询(LINQ)编程,通过IFC的可扩展标记语言(Extensible Markup Language,XML)格式即IfcXML提取、访问和链接建筑信息模型(Building Information Modeling,BIM)和法规信息。在自动化方法方面,研究人员提出一种自动规则转换方法,其流程包括信息提取:识别相关句子中的单词和短语并用预定义的信息标签对其进行标记,以及信息转换:基于正则表达式的映射规则和冲突消解规则将提取的信息实例转换为逻辑子句,通过将信息提取和转换集成到一个统一的系统中,实现全自动规则检查;研究人员还提出一种基于本体的信息提取方法,以支持全自动的建筑能源符合性检查,其中,模式匹配方法通过本体、预处理等领域特定方式得到增强,这些方式将该方法集中在建筑能耗领域上并提高了准确性;研究人员还提出一种框架,该框架通过集成自然语言处理(Natural language processing,NLP)和空间推理来自动化设备合规性审查,其中,基于模式匹配的算法用于将文本描述的空间配置转换为计算机可处理的规则;研究人员还提出一种基于语义框架的信息提取方法,重点关注领域和词汇语义以支持ACC,该方法的特点是使用领域语义框架进行规则映射。
然而,这些研究中所提出的方法仍然存在局限性,因为其无法同时实现理想程度的自动化和可扩展性。半自动方法易于理解,适用范围广,但仍需要大量的人工进行编写查询语言、伪代码或标记规范文档等。因此,其自动化程度较为低下。对于自动化方法,其大量依赖基于正则表达式的匹配模式,这也是一种对映射规则进行硬编码的方式。实际上,正则表达式的表达能力较低(例如无法表达递归),很容易导致其使用数量的增加(例如需要使用大量的正则表达式才能表示一个简单的规则),且变得难以维护。因此,当前的自动化方法具有以下缺陷:1)构建和维护成本高,只能靠手工逐个编写正则表达式来建立,且每一正则表达式的覆盖范围十分有限。2)可扩展性低,该方法准确性的提高往往伴随着适用领域特殊性的加深,因此,该方法在可扩展性方面存在较大局限性,即很难通过正则表达式建立起适用于普遍领域的规则转换方法。3)可维护性低,正则表达式缺乏递归的特性很容易导致其用法数量的增加,并使其很快变得难以维护。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110178180.2/2.html,转载请声明来源钻瓜专利网。