[发明专利]一种对于文本数据进行收集以进行自然语言处理NLP的方法及系统有效
申请号: | 202010583310.6 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111753540B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 苏文伟;马文;汪飞;赵志宇;凌波;张航;黄祖源;田园 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06Q50/18;G06F16/35 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 罗东 |
地址: | 650051*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对于 文本 数据 进行 收集 自然语言 处理 nlp 方法 系统 | ||
本发明通过判断待审核的合同的类别;根据所述合同的类别确定其对应的词汇表大小;进而确定词汇表示学习模型;将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型;将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词;基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据,从而实现较高的精度以及效率。
技术领域
本发明涉及自然语言处理技术领域,更具体的,其涉及一种在合同审查领域对于文本数据进行收集以进行自然语言处理NLP的方法及系统。
背景技术
合同,又称为契约、协议,是平等的当事人之间设立、变更、终止民事权利义务关系的协议。合同作为一种民事法律行为,是当事人协商一致的产物,是两个以上的意思表示相一致的协议。只有当事人所作出的意思表示合法,合同才具有国家法律约束力。依法成立的合同从成立之日起生效,具有国家法律约束力。
而在现有的法制社会下,不管是生活中还是工作中都会涉及到各类合同,总的来说,合同包括民事合同、行政合同、劳动合同等;具体来说 ,对于公司而言,在其日常经营活动中,涉及到与职工之间的劳务合同、外包合同、采购合同、各类工程项目合同以及贸易合同等。
由于合同广泛存在于人们生活的各个方面,并可能涉及到各个行业领域,其涉及面之广。然而,合同也需要满足法律所固有的合法性以及严谨的特点,对于个人而言,为了保证合同订立的有效性、以及尽可能避免可能出现的法律风险,需要法律行业相关人士进行人工核查;而对于公司而言,由于其涉及大量合同的签订,许多企业都设立了相关法律事务部门,通过专业的法律从业人员进行人工审核。然而,对于各类的不同合同,以及合同涉及到的大量数据,进行人工核查可能会出现疲劳、视觉差以及经验不足出现的误判等各类问题;基于此,自然语言处理(NLP)被应用在了合同审核中。
“一种合同条款的风险审查方法及装置”(申请号为201910311817.3)公开了一种合同条款风险审查的方法,其通过对同类型的合同进行自然语言处理,并计算条款文本的语义相似度以及结构相似度,从而根据相似度对待审查合同进行风险提示。
虽然通过自然语言处理代替人工进行合同审核极大提高了审核的效率与准确率,但现有技术对于合同审核的自然语言处理基本都是将现有的训练模型对应的算法直接应用,虽然现有技术中也有对业务类型进行获取,并针对该业务类型下提供的语料进行训练,从而提高模型准确性;但也仅是根据业务类型对训练语料做出的进一步限定。并且,在词汇表较大的一些情况下,其审核效率较为低下,极大的浪费了审核资源。因此,如何在面对不同合同的情况下,更好的兼顾审核效率与准确率,提出与合同审查这一应用领域更加适配的自然语言处理方案是目前亟待解决的问题。
发明内容
本发明针对上述问题,提出了一种用于自然语言处理NLP的合同文本信息的收集方法及系统;其可应用于合同审查领域进行自然语言处理NLP的合同文本信息的收集。避免了人工核查可能会出现的各类问题,并且兼顾了审核效率和审核准确率,降低了审核成本。
有鉴于此,本发明提出了一种用于自然语言处理NLP的合同文本信息的收集方法,该方法应用于合同审核,其特征在于:从各数据源获取自然语言处理NLP语料;对所获取的自然语言处理NLP语料进行语料加工处理;判断待审核的合同的类别;根据所述合同的类别确定其对应的词汇表大小;根据词汇表大小确定词汇表示学习模型;将进行加工后的自然语言处理NLP语料输入所述词汇表示学习模型进行训练以获得词汇模型;将基础词输入所述词汇模型以预测与该基础词相关联的感兴趣的词;基于该感兴趣的词对待审合同进行数据抽取以识别出与所述感兴趣的词相关联的数据。通过上述方法,实现了对各种不同类别的合同审核有针对性的进行训练,从而大大提高信息收集效率的作用。
进一步的,对自然语言处理语料的获取大致可通过已有语料以及网上数据抓取两个途径;对于公司而言,随着业务发展都会积累有大量的纸质合同或者电子合同文本资料。如果现有语料不足,则可选择获取国内外标准开放数据集,也可以选择通过爬虫抓取数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010583310.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置