[发明专利]基于深度学习的相似信息合并方法、装置、设备及介质在审
申请号: | 202010917729.0 | 申请日: | 2020-09-03 |
公开(公告)号: | CN111985491A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 高立志 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06F40/295;G06F40/166;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 相似 信息 合并 方法 装置 设备 介质 | ||
1.一种基于深度学习的相似信息合并方法,其特征在于,所述方法包括:
获取第一原始图像集和第二原始图像集,对所述第一原始图像集和所述第二原始图像集进行预处理,得到第一待合并图像集和第二待合并图像集;
利用预先训练完成的文本识别模型对所述第一待合并图像集和所述第二待合并图像集进行文本识别,得到第一词向量和第二词向量,并对所述第一词向量和第二词向量编码,生成第一键值、其对应的第一结果值及第二键值、其对应的第二结果值,根据所述第一键值和第一结果值及所述第二键值和第二结果值,将所述第一待合并图像集和所述第二待合并图像集转换为第一输出文本和第二输出文本;
利用所述键值计算所述第一输出文本和所述第二输出文本的编辑距离;
比较所述编辑距离与预设的阈值之间的大小;
若所述编辑距离小于或者等于预设的阈值时,将所述第一输出文本和所述第二输出文本进行合并处理,得到并输出合并数据集;
若所述编辑距离大于预设的阈值时,直接输出所述第一输出文本和所述第二输出文本。
2.如权利要求1所述的基于深度学习的相似信息合并方法,其特征在于,所述对所述第一词向量和第二词向量编码,包括:
获取词向量的唯一编码函数;
利用编译器将所述词向量的唯一编码函数编译为编码生成语句;
利用所述编码生成语句对所述第一词向量和第二词向量编码。
3.如权利要求1所述的基于深度学习的相似信息合并方法,其特征在于,所述文本识别模型包括:
词向量层,用于将所述第一待合并图像集包含的文本中的单词和字符转化为第一词向量,将所述第二待合并图像集包含的文本中的单词和字符转化为第二词向量;
Bi-LSTM层,用于将所述第一词向量和所述第二词向量进行分割,对分割后的所述第一词向量和所述第二词向量进行编码,得到所述第一词向量的第一编码表征和所述第二词向量的第二编码表征,利用所述第一编码表征和所述第二编码表征对分割后的所述第一词向量和所述第二词向量进行标注,得到第一键值和对应的第一结果值及第二键值和对应的第二结果值;
CRF层,用于将所述第一键值和对应的第一结果值及第二键值和对应的第二结果值中相同类型的键值和结果值进行拼接,生成输出文本。
4.如权利要求3所述的基于深度学习的相似信息合并方法,其特征在于,所述利用所述第一编码表征和所述第二编码表征对分割后的所述第一词向量和所述第二词向量进行标注,包括:
设置标注队列任务;
将所述第一词向量和所述第二词向量按照所述标注队列任务的顺序进行标注。
5.如权利要求3所述的基于深度学习的相似信息合并方法,其特征在于,所述将相同类型的键值和结果值进行拼接,生成输出文本,包括:
将相同类型的键值和结果值进行拼接;
将拼接完成的文本按照编码的逆过程进行解码,生成所述第一输出文本和第二输出文本。
6.如权利要求1所述的基于深度学习的相似信息合并方法,其特征在于,所述利用所述键值计算所述第一输出文本和所述第二输出文本的编辑距离,包括:
利用如下编辑距离算法计算所述编辑距离Simtopic:
Simtopic=Pearson(R,S)
其中,R为所述第一输出文本的键值,S为所述第二输出文本的键值,Pearson为编辑距离运算。
7.如权利要求1至6中任意一项所述的基于深度学习的相似信息合并方法,其特征在于,所述预处理包括:
将所述第一原始图像集中的图像信号和所述第二原始图像集中的图像信号进行放大处理,得到第一放大图像信号和第二放大图像信号;
将所述第一放大图像信号和所述第二放大图像信号进行滤波处理,得到所述第一待合并图像集和所述第二待合并图像集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010917729.0/1.html,转载请声明来源钻瓜专利网。