[发明专利]基于深度学习的贸易合同全文关键内容跨行合并的方法在审
申请号: | 202111275246.6 | 申请日: | 2021-10-29 |
公开(公告)号: | CN113903047A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 陈加杰 | 申请(专利权)人: | 深圳前海环融联易信息科技服务有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/42;G06V30/19;G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市中科创为专利代理有限公司 44384 | 代理人: | 彭涛;刘曰莹 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 贸易 合同 全文 关键 内容 合并 方法 | ||
本发明涉及深度学习技术领域,尤其涉及一种基于深度学习的贸易合同全文关键内容跨行合并的方法,包括如下步骤:步骤S1:获取训练样本合同文件;步骤S2:提取出合同文件中的文本信息;步骤S3:对每一份合同文件的每一行进行标签标注;步骤S4:将标注好的输入模型进行训练;步骤S5:输出整个文本的合并结果。本发明的基于深度学习的贸易合同全文关键内容跨行合并的方法实现了端到端的自动训练及合并,具有高度的自动化,无需人工审核及中途干预,有利于节约人力成本,有利于减少碎片化操作,提高合并的准确程度。
【技术领域】
本发明涉及深度学习技术领域,尤其涉及一种基于深度学习的贸易合同全文关键内容跨行合并的方法。
【背景技术】
市面上的一些基于图片的合同审核很大程度上要OCR识别,但是每张图片的识别结果都是碎片化的,即是按行的格式输出的,这就导致合同中的长文本描述被切成多行,在实际业务中这种多行的内容对后续的自动化信息抽取以及文本审核等任务造成了极大的困扰。
因此,现有技术存在不足,需要改进。
【发明内容】
为克服上述的技术问题,本发明提供了一种基于深度学习的贸易合同全文关键内容跨行合并的方法。
本发明解决技术问题的方案是提供一种基于深度学习的贸易合同全文关键内容跨行合并的方法,包括如下步骤:步骤S1:获取训练样本合同文件;步骤S2:提取出合同文件中的文本信息;步骤S3:对每一份合同文件的每一行进行标签标注;步骤S4:将标注好的输入模型进行训练;步骤S5:输出整个文本的合并结果。
优选地,在步骤S2中,通过OCR提取文本信息。
优选地,在步骤S4中,采用编码模型结合分类模型的模型结构进行训练。
优选地,所述编码模型为BERT模型、GPT模型或DOC2VEC模型。
优选地,所述分类模型为CNN模型或RNN模型。
优选地,在步骤S3中,对待合并的开头处的行进行标注,对待合并的非开头处的行进行标注,对每一单独行进行标注。
相对于现有技术,本发明的基于深度学习的贸易合同全文关键内容跨行合并的方法具有如下优点:
通过本方法实现端到端的自动训练及合并,具有高度的自动化,无需人工审核及中途干预,有利于节约人力成本,有利于减少碎片化操作,提高合并的准确程度。
【附图说明】
图1是本发明基于深度学习的贸易合同全文关键内容跨行合并的方法的具体流程示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种基于深度学习的贸易合同全文关键内容跨行合并的方法,包括如下步骤:
进一步地,步骤S1:获取训练样本合同文件。
可以理解,训练样本合同文件可为公司内部的电子档格式的合同文件。
进一步地,步骤S2:提取出合同文件中的文本信息。
具体地,通过在步骤S2中,通过OCR提取文本信息。
进一步地,步骤S3:对每一份合同文件的每一行进行标签标注。
在步骤S3中,对待合并的开头处的行进行标注,对待合并的非开头处的行进行标注,对每一单独行进行标注,具体的标注内容为[B-I,B-O,O],其中字母O表示合同文件的单独行,B-I表示待合并的开头处的行,B-O表示待合并的非开头处的行。作为一具体实施例:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111275246.6/2.html,转载请声明来源钻瓜专利网。