[发明专利]识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质有效
申请号: | 201711287706.0 | 申请日: | 2017-12-07 |
公开(公告)号: | CN108228720B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 邹启波;曹欢欢 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/583 |
代理公司: | 北京天达共和知识产权代理事务所(特殊普通合伙) 11586 | 代理人: | 关刚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标文字 存储介质 网页 文本 终端 图像搜索引擎 图片 搜索 | ||
1.一种识别目标文字内容和原图相关性的方法,其特征在于,
至少包括以下步骤:
步骤1:通过图像搜索引擎搜索原图,得到至少一个网页,所述至少一个网页包含所述原图或与所述原图类似的图片;
步骤2:获取所述至少一个网页中的图片相关文本;
步骤3:计算所述目标文字内容和所述图片相关文本之间的相关性结果;
步骤4:根据所述相关性结果,得到所述目标文字内容和所述原图之间的相关性,
所述原图是由用户上传的图片,所述目标文字内容是上传所述原图时上传的文字,所述图片相关文本是从所述至少一个网页中提取出的文字摘要信息,
在所述步骤3中,选择以下计算方法之一来计算所述相关性:
Relevance(W,WG)=avg(F(W,WGi))
Relevance(W,WG)=max(F(W,WGi))
Relevance(W,WG)=avg(max(F(W,WGi)),min(F(W,WGi)))
其中,W是所述用户上传文字内容,WGi是在所述步骤2中获取的所述至少一个网页中提取出的文字摘要信息,F是所述相关性计算模型。
2.如权利要求1所述的识别目标文字内容和原图相关性的方法,其特征在于,
在所述步骤2中,采用图像搜索引擎的搜索结果以获取文字摘要信息。
3.如权利要求1所述的识别目标文字内容和原图相关性的方法,其特征在于,
在所述步骤2中,通过对网页结果进行内容提取以自行获得文字摘要信息。
4.如权利要求1至3的任何一项所述的识别目标文字内容和原图相关性的方法,其特征在于,
所述步骤3中采用VSM模型、BM25模型、基于深度学习的文本相关性模型之中的任意之一模型,或者所述VSM模型、BM25模型、基于深度学习的文本相关性模型的任意模型的组合。
5.如权利要求1至3的任何一项所述的识别目标文字内容和原图相关性的方法,其特征在于,
在所述步骤1中,通过图像搜索引擎接口模块在所述图像搜索引擎中输入原图。
6.如权利要求5所述的识别目标文字内容和原图相关性的方法,其特征在于,
所述图像搜索引擎接口模块通过输入图片的网络地址或者图片文件来上传图片。
7.一种识别目标文字内容和原图相关性的系统,其特征在于,
该系统至少包括以下模块:
搜索模块,其通过图像搜索引擎搜索原图,得到至少一个网页,所述至少一个网页包含所述原图或与所述原图类似的图片;
图片相关文本获取模块,其获取所述至少一个网页中的图片相关文本;
相关性计算模块,其计算所述目标文字内容和所述图片相关文本之间的相关性结果;
识别模块,其根据所述相关性结果,得到所述目标文字内容和所述原图之间的相关性,
所述模块是应用软件或固件,
所述原图是由用户上传的图片,所述目标文字内容是上传所述原图时上传的文字,所述图片相关文本是从所述至少一个网页中提取出的文字摘要信息,
在所述相关性计算模块中,选择以下计算方法之一来计算所述相关性:
Relevance(W,WG)=avg(F(W,WGi))
Relevance(W,WG)=max(F(W,WGi))
Relevance(W,WG)=avg(max(F(W,WGi)),min(F(W,WGi)))
其中,W是所述用户上传的文字内容,WGi是在所述图片相关文本获取模块所获取的所述至少一个网页中提取出的文字摘要信息,F是所述相关性计算模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711287706.0/1.html,转载请声明来源钻瓜专利网。