[发明专利]基于深度学习的工程造价自动抽取和分析方法及装置有效
申请号: | 202210126772.4 | 申请日: | 2022-02-11 |
公开(公告)号: | CN114168716B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 叶杰舜;黄文炜 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62;G06Q10/06;G06Q50/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄卫萍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 工程造价 自动 抽取 分析 方法 装置 | ||
1.一种基于深度学习与自然语言处理技术的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,该方法包括工程造价信息自动识别及抽取步骤以及工程造价自动生成和分析步骤,其中,
所述工程造价信息自动识别及抽取步骤过程如下:
S101、导入不同建设工程类型工程量清单信息,将工程量清单的内容按:分部工程、项目名称、项目特征描述、计量单位中的两种或多种组合划分为多个部分;
S102、导入市场工程造价信息;
S103、将工程量清单信息、市场工程造价信息使用自然语言处理技术中的分词拆分方法进行工程描述特征分词拆分,输出分词及分词对应的词性、分词对应的出现频率;
S104、对于分词拆分,若出现输出的分词与内容表述原意有偏差的情况,按照正确的分词拆分;
S105、对于拆分后的工程量清单信息与市场工程造价信息,对分词内容、词性、描述特征、出现频率,建立知识图谱对应关系,并根据知识图谱建立对应关系结构化数据库;
S106、将输出的分词按照事先指定的顺序排列,然后将分词内容、以及分词出现的频率、分词的词性,按照不同对应关系,建立标签并建立数据矩阵;
S107、将上述数据矩阵作为训练集,选择深度学习算法,建立并训练小样本深度学习模型,通过小样本深度学习模型自动识别造价信息,并抽取造价信息并输入结构化数据库;
所述工程造价自动生成和分析步骤过程如下:
S201、导入待测算成本的工程量清单,按照不同建设工程类型深度学习模型,依据知识图谱对应关系,自动读取结构化数据库,识别每一项工程量清单的造价内容,实现小样本学习,自动输出各项造价内容的单价;
S202、根据各类造价内容的单价计算得出综合单价、合价,最后根据各项工程量清单的合价汇总得出总价;
S203、根据工程量清单的总价,计算工程量清单的关键造价指标,并储存进指标数据库;
S204、根据工程量清单的各个关键造价指标,与指标数据库的历史数据进行比对,自动计算并输出偏离度,以此分析造价的合理性。
2.根据权利要求1所述的基于深度学习与自然语言处理技术的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,所述小样本深度学习模型的工作过程如下:
S301、导入工程量清单,执行步骤S101、S102、S103,将工程量清单进行描述特征分词拆分,输出分词及分词对应的词性、分词对应的出现频率;
S302、根据输出的分词及分词对应的词性、分词对应的出现频率,使用知识图谱对应关系、知识图谱与对应关系结构化数据库的关系、以及预先设定深度学习算法的数据的分布式特征表示,使用深度学习算法,输入所述数据矩阵,得到标签的分类方法;
S303、导入工程量清单信息、市场工程造价信息后,使用分类方法输出标签,根据输出的标签找到工程量清单信息、市场工程造价信息与对应关系结构化数据库的关系;
S304、按照对应关系结构化数据库的关系,将工程量清单信息、市场工程造价信息,按照标签分别储存进数据库;
S305、输出不带造价信息的工程量清单后,按照标签,读取数据库,输出工程量清单中各项清单的单价,然后按照单价计算得出综合单价、合价;
S306、按照计算得出工程量清单中各项清单的综合单价、合价,分别除以工程量清单的总价所得百分比的计算得到占比,其中占工程量清单的总价的比例在5%以上的清单作为工程量清单关键指标,并分别储存进数据库;
S307、导入新的工程量清单,重复步骤S301至S306,计算得出工程量清单关键造价指标,与数据库中同一关键造价指标进行相减,然后相减的差值除以指标数据库中同一关键造价指标所得百分比为偏离度。
3.根据权利要求1所述的基于深度学习与自然语言处理技术的工程造价信息自动抽取及工程成本自动生成和分析方法,其特征在于,所述分词拆分的操作包括:段落切分、句子切分、词语切分;段落切分是以文本换行符作为分割符号,将文本内容划分为两个或以上段落;句子切分是以标点符号作为分割符号,将段落内容划分为两个或以上句子;词语切分是使用分词器将句子内容划分为两个或以上词语;所述分词器是将一个汉字序列进行切分,与事先设定的分词库进行匹配比对,按照最符合原文含义的方法,得到一个个单独的词语;所述分词库是指两个以上的词语以及词语对应的词性组合形成的数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210126772.4/1.html,转载请声明来源钻瓜专利网。