[发明专利]一种不良资产经营领域的合同要素化方法在审
申请号: | 201910096569.5 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109933783A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 后其林;尹昌;钟丽莉;万谊强;仵伟强;蒋泽晟 | 申请(专利权)人: | 华融融通(北京)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06Q10/10;G06Q50/18 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100032 北*** | 国省代码: | 北京;11 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开一种不良资产经营领域的合同要素化方法,包括如下步骤:第一步:合同要素总结;第二步:数据预处理;第三步:特征构建;第四步:模型训练及测试;第五步:要素内容抽取。本发明优点在于:(1)利用自然语言处理技术与专家经验的融合,实现了计算机对合同文本的理解,能够实现自动化合同审核,从而提高了业务效率,降低了人工成本并减少相关操作风险的发生。(2)将合同要素化后的合同管理避免了传统合同管理中存在的丢失、损坏等风险,提高了合同信息的安全性与可靠性。(3)对合同信息的要素化管理,提高了合同知识的使用效率,有助于业务的开展和决策的确定。 | ||
搜索关键词: | 合同要素 不良资产 合同管理 合同信息 自然语言处理技术 数据预处理 合同文本 模型训练 人工成本 使用效率 特征构建 要素内容 业务效率 专家经验 合同 抽取 自动化 测试 经营 融合 审核 计算机 决策 管理 | ||
【主权项】:
1.一种不良资产经营领域的合同要素化方法,其特征在于:该方法包括如下步骤:第一步:合同要素总结基于历史积累的合同文档,提取出能够涵盖合同信息的合同要素,并分析任一类合同要素的构成,包括合同要素类别、定义、关键词;结合Slot Filling模型,梳理出合同要素的槽位和属性;第二步:数据预处理首先,需要获得有关于某一类合同要素的所有文本内容;其次,需要对合同文档的内容进行人工标注,即对于包含合同要素内容的文本标注为1,对于仅包含合同要素关键字词的文本标注为0,其中包含合同要素内容指一个句子中既含有合同要素的关键字又含有该关键字对应的内容,而合同要素关键字是指用于表征该类合同要素的字或词;然后,需要去除标注内容中的停止词及分词,并将分词结果组合成新语料;第三步:特征构建计算新语料中每个句子中词语的TF‑IDF值,然后组成每个句子的句向量,作为模型的入模特征;本发明通过计算基于新语料的句子中各个词语的TF‑IDF值进而组成N维向量作为入模特征,其中维度N取决于语料词袋的个数;其中TF的计算逻辑如下:
某一目标字词的IDF值可以由语料库中的总文件数目除以包含该字词的文件数目,然后对商取对数,其计算逻辑如下,其中分母加1的原因是为了避免分母为0;
综上,使用TF‑IDF值的思想实现对合同文档中所有信息的特征转变,利用包含了词语信息的特征值作为Slot Filling模型的入模特征;第四步:模型训练及测试抽取所有文档中关于某类合同要素的所有句子,作为整体数据集,选用Logistic Regression模型进行模型构建;将整体数据集分为训练集和测试集,且二者比例为8:2;利用训练集,构建Logistic Regression分类器,识别包含合同要素信息的句子;第五步:要素内容抽取利用正则匹配技术抽取包含合同要素信息句子中的合同要素内容,形成键值对,其中“键”为合同要素名称、“值”为合同要素内容,并以表格的形式可视化要素内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华融融通(北京)科技有限公司,未经华融融通(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910096569.5/,转载请声明来源钻瓜专利网。
- 上一篇:用户情绪预测方法和装置
- 下一篇:一种文本识别方法和装置