[发明专利]基于文本识别技术的单证生成方法、装置、设备及介质在审
| 申请号: | 202110575278.1 | 申请日: | 2021-05-26 |
| 公开(公告)号: | CN113191456A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 李黎;郭茹霜;许丹;王云峰;曾小建 | 申请(专利权)人: | 平安信托有限责任公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06F40/186;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518033 广东省深圳市福田区福田街道福安社区益田路5033号平*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文本 识别 技术 生成 方法 装置 设备 介质 | ||
本发明涉及人工智能领域,揭露一种基于文本识别技术的单证生成方法,包括:利用历史单证文本信息集对预设的单证字段抽取模型进行训练,得到训练完成的单证字段抽取模型;根据单证生成请求获取待分析服务文本信息,利用训练完成的单证字段抽取模型从待分析服务文本信息中抽取预设字段,得到目标字段;提取单证生成请求中的服务类型,根据服务类型对目标字段进行筛选处理,得到标准目标字段;根据服务类型获取目标单证模板,将标准目标字段与目标单证模板进行关联匹配,得到目标单证。本发明还涉及区块链领域,所述标准目标字段可以存储在区块链节点中。本发明还提出一种单证生成装置、电子设备以及可读存储介质。本发明可以提高单证生成的灵活性。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于文本识别技术的基于文本识别技术的单证生成方法、装置、设备及存储介质。
背景技术
单证为根据业务的文本信息所生成的合同、确认书、协议等,随着人们对业务的需求越来越强,因此,单证生成也越来越受到人们的重视。
但是目前的基于文本识别技术的单证生成方法往往只能识别某一类型业务的文本信息,并生成对应的单证,无法覆盖多样化的业务,单证生成的灵活性较低。
发明内容
本发明提供一种基于文本识别技术的单证生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高单证生成的灵活性。
为实现上述目的,本发明提供的一种基于文本识别技术的单证生成方法,包括:
利用历史单证文本信息集对预设的单证字段抽取模型进行训练,得到训练完成的单证字段抽取模型;
根据单证生成请求获取待分析服务文本信息,利用所述训练完成的单证字段抽取模型对所述待分析服务文本信息进行单证字段抽取,得到目标字段;
提取所述单证生成请求中的服务类型,根据所述服务类型对所述目标字段进行筛选处理,得到标准目标字段;
根据所述服务类型获取目标单证模板,将所述标准目标字段与所述目标单证模板进行关联匹配,得到目标单证。
可选地,所述利用历史单证文本信息集对预设的单证字段抽取模型进行训练,得到训练完成的单证字段抽取模型,包括:
构建单证字段抽取模型;
对所述历史单证文本信息集进行预设字段标记,得到训练集;
利用所述训练集对所述单证字段抽取模型进行迭代训练,直至所述单证字段抽取模型收敛,得到所述训练完成的单证字段抽取模型。
可选地,所述构建单证字段抽取模型,包括:
利用预设的深度学习网络模型构建初始抽取模型;
在所述初始抽取模型中增加全连接网络,用于计算输入到所述初始抽取模型中的每个字符属于不同标签的概率,根据所述概率得到预设字段对应的字符组合;及
在所述全连接网络之后加入序列化标注算法网络,以对所述全连接网络得到的字符组合的顺序进行约束,得到所述单证字段抽取模型。
可选地,所述对所述历史单证文本信息集进行预设字段标记,得到训练集,包括:
根据预设字段构建包含非预设字段字符标签、预设字段开始字符标签、预设字段中间字符标签的标签集合;
利用所述标签集合中对应的标签对所述历史单证文本信息集中的每个字符进行标记,得到所述训练集。
可选地,所述利用所述训练完成的单证字段抽取模型对所述待分析服务文本信息进行单证字段抽取,得到目标字段,包括:
对所述待分析服务文本信息中的每个字符进行坐标点位置标记,得到字符信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安信托有限责任公司,未经平安信托有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110575278.1/2.html,转载请声明来源钻瓜专利网。





