[发明专利]文本提取方法、装置、电子设备及存储介质在审

申请号：	202011372159.8	申请日：	2020-11-30
公开（公告）号：	CN112396054A	公开（公告）日：	2021-02-23
发明（设计）人：	丁笑天;刘岩;朱兴杰;张秋晖	申请（专利权）人：	泰康保险集团股份有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/62;G06K9/20;G06Q40/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100031 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本提取方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供的一种文本提取方法、装置、电子设备及存储介质，应用于计算机技术领域，所述方法包括：将待处理的目标文本图像输入至目标文本识别模型，得到目标文本图像中各类别属性的候选文本信息的位置信息；给目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示预测结果图像，提示标记用于表示候选文本信息相对应的位置信息和类别属性；接收对于预测结果图像的提示标记中目标提示标记的选取输入；响应于选取输入，从预测结果图像中提取目标提示标记相对应的目标文本信息和目标类别属性。本方案使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

技术领域

本申请属于计算机技术领域，特别是涉及一种文本提取方法、装置、电子设备及存储介质。

背景技术

在保险或银行行业中OCR(Optical Character Recognition，光学字符识别)技术的应用十分广泛，特别是在医疗保险报销的场景中，也可借助于OCR技术来自动从对文档拍摄或扫描得到的图像中提取出文本信息。

而目前的OCR技术中，虽然文本识别较为成熟，但是只能输出整行的一堆文本，若想要将文本进行结构化处理，则需要针对各种板式的文本设置专用的识别模板或者识别规则，或者是依赖于自然语言识别模型对OCR技术提取出的文本进行分类来实现结构化处理，这些方式均依赖于文本图像的质量，若文本图像中存在重叠的文本信息，则会导致所识别出文本信息的类别不准确性，从而导致所提取出的文本信息不符合用户的实际需求。

发明内容

有鉴于此，本申请提供一种文本提取方法、装置、电子设备及存储介质，用于解决现有技术中对文本图像进行结构化提取的方案依赖于文本图像的质量，若文本图像中存在重叠的文本信息，则会导致所识别出文本信息的类别不准确，从而导致所提取出的文本信息不符合用户的实际需求的问题。

本申请第一方面提供一种文本提取方法，所述方法包括：

将待处理的目标文本图像输入至目标文本识别模型，得到所述目标文本图像中各类别属性的候选文本信息的位置信息，其中，所述目标文本识别模型至少包括两个输出通道，各所述输出通道用于输出一种类别属性相对应的候选文本信息的位置信息；

给所述目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示所述预测结果图像，所述提示标记用于表示所述候选文本信息相对应的位置信息和类别属性；

接收对于所述预测结果图像的提示标记中目标提示标记的选取输入；

响应于所述选取输入，从所述预测结果图像中提取所述目标提示标记相对应的目标文本信息和目标类别属性。

可选地，所述目标文本识别模型是通过以下步骤得到：

获取样本文本图像，所述样本文本图像标注有各样本文本信息相对应的标准类别属性和标准位置信息；

将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息；

在所述预测类别属性、所述预测位置信息、标准类别属性和标准位置信息符合预设训练要求，将训练后的初始文本识别模型作为目标文本识别模型。

可选地，所述将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息，包括：