[发明专利]一种基于NER模型的标注方法以及标注系统在审
申请号: | 202210395434.0 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114596560A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 赵岫岩 | 申请(专利权)人: | 金科览智科技(北京)有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06K9/62;G06V30/19;G06V10/774 |
代理公司: | 北京冬瓜知识产权代理事务所(普通合伙) 11854 | 代理人: | 李佳 |
地址: | 100037 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ner 模型 标注 方法 以及 系统 | ||
本发明提供了一种基于NER模型的标注方法以及标注系统,所述NER模型的标注方法包括:对票据样本进行OCR文字识别、结构化处理后,再采用标注工具进行标注,然后将标注后的数据送入NER模型进行训练,得到训练后的NER模型;采用训练后的NER模型对待标记的票据样本进行标注。所述标注方法提升标注工作的效率,减轻标注工作量。
技术领域
本发明涉及票据标注领域,具体而言,涉及一种基于NER模型的标注方法以及标注系统。
背景技术
机器学习与深度学习在过去十年内取得了长足的进步,这一方面得益于算力的提高、基础研究的进步,同时也得益于数据,尤其是标注数据的增长。从广义上来说,机器学习与深度学习可以被划分为监督学习、无监督学习、自监督学习等领域。无监督学习与自监督学习只需要将事先处理过的大规模数据送入模型进行训练、学习,无需进行人为标注。然而,大部分深度学习算法与场景,要求算法以监督学习的方式进行训练,这就需要进行人工数据标注工作。
人工数据标注工作需要投入大量人力资源。以医疗发票标注为例,一张普通的医疗发票被OCR识别后,可以产生约100个文本框,其中约有30个文本框需要人工标注其所属类别,如“发票代码”、“自费金额”、“治疗医院”、“开票日期”等等。一个初级标注员每天只能标注约40张发票,而经验丰富的标注员每天也只能标注60张左右,总体标注效率较低。
可见现有技术中的标注成本高,需要投入大量的标注人员进行标注工作,初级标注人员由于对业务、系统的不熟悉,在标注时存在误标注,且在标注过程中,简单重复的标注很多,这些情况都会影响标注效率,标注员的重点应放在较难,以及容易出现混淆的标注工作上,而不是这些简单的标注工作上。
有鉴于此,特提出本发明。
发明内容
有鉴于此,本发明公开了一种针对NER模型的标注方法以及标注系统,该标注方法提升标注工作的效率,减轻了标注的工作量。
具体地,本发明是通过以下技术方案实现的:
第一方面,本发明公开了一种基于NER模型的标注方法,包括如下步骤:
对票据样本进行OCR文字识别、结构化处理后,再采用标注工具进行标注,然后将标注后的数据送入NER模型进行训练,得到训练后的NER模型;
采用训练后的NER模型对待标记的票据样本进行标注。
第二方面,本发明公开了一种基于NER模型的标注系统,包括:
模型训练模块:对票据样本进行OCR文字识别、结构化处理后,再采用标注工具进行标注,然后将标注后的数据送入NER模型进行训练,得到训练后的NER模型;
标注模块:采用训练后的NER模型对待标记的票据样本进行标注。
第三方面,本发明公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述NER模型的标注方法的步骤。
第四方面,本发明公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述NER模型的标注方法的步骤。
总之,目前人工标注策略需要投入大量的人力物力,成本较高,并且由于各标注员的经验、理解不同,会得到不同的标注结果,标注的准确性也不尽人意。同时,标注员也花费了大量的时间用于简单、重复性的标注工作,效率较低。因此,需要一种新的标注流程,减轻标注人员的工作量,提升标注效率,降低标注成本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金科览智科技(北京)有限公司,未经金科览智科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210395434.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型线缆连接器及其方法
- 下一篇:一种可形变的佩戴式磁石治疗器