[发明专利]一种图片信息的处理方法、装置及电子设备在审
| 申请号: | 202010366994.4 | 申请日: | 2020-04-30 |
| 公开(公告)号: | CN113590861A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 潘达;董国盛;周泽南;苏雪峰;陈炜鹏;许静芳 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/535;G06F16/538;G06F16/583 |
| 代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 图片 信息 处理 方法 装置 电子设备 | ||
本发明公开了一种图片信息的处理方法、装置及电子设备,该方法包括:对网页中的图片进行重复图片聚类,获取每个类簇图片的标记文本域集合;针对每张类簇图片,根据标记文本域集合获取标记文本域集合中每个标记文本域包含有的关键词及其词权重,词权重用于反映关键词和类簇图片的相关度;根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;根据每张类簇图片的目标关键词及其词权重,对图片搜索结果进行排序。在上述技术方案中,通过重复图片聚类获取大量的标记文本域,选取图片的目标关键词及其词权重,据此进行图片搜索结果的排序,解决了现有技术中因图文不符导致的图片搜索排序准确性降低的技术问题。
技术领域
本发明涉及软件技术领域,特别涉及一种图片信息的处理方法、装置及电子设备。
背景技术
互联网应用中,对于图片搜索有两种实现方式,一种是以图搜图,另一种是根据查询词搜图。第二种方式通常根据图片所在网页提供的图片描述信息与查询词之间的匹配进行图片搜索。
目前,互联网上的每天增加海量的图文页面,图文页面的质量参差不齐,不乏存在图文不符的页面。另外,随着图片的扩散和转发,与之对应的描述信息因为编辑、转发而逐渐失真,出现图文不符的情况。这些图文不符的页面,对图片搜索排序会产生负面影响,大大降低图片搜索排序的准确性。
发明内容
本发明实施例提供一种图片信息的处理方法、装置及电子设备,用于解决现有技术中因图文不符的页面导致的图片搜索排序准确性降低的技术问题,提高图片搜索排序的准确性。
本发明实施例提供一种图片信息的处理方法,所述方法包括:
对网页中的图片进行重复图片聚类,获取每个类簇的类簇图片和所述类簇图片的标记文本域集合;
针对每张类簇图片,根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,其中,所述词权重用于反映所述关键词和类簇图片的相关度;
根据每张类簇图片对应的所有关键词的词权重,获取每张类簇图片的目标关键词;
根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序。
可选的,所述根据所述标记文本域集合获取所述标记文本域集合中每个标记文本域包含有的关键词及所述关键词的词权重,包括:
获取所述每个标记文本域中的关键词;
针对每个关键词获得如下目标参数:所述关键词在所属标记文本域中的词频和出现次数以及所述关键词对应的网站域名个数;
根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重。
可选的,根据每个所述关键词的所述目标参数,计算获得每个所述关键词的词权重,包括:
针对每个所述关键词,根据所述关键词在每个所属标记文本域中的词频和出现次数,计算获得所述关键词在每个所属标记文本域中的重要程度,所述重要程度按所述词频和出现次数衰减累加;
根据所述关键词在所有所属标记文本域中的重要程度以及所述关键词对应的网站域名个数,计算获得每个所述关键词的词权重。
可选的,所述根据每张类簇图片的所述目标关键词及所述目标关键词的词权重,对图片搜索结果进行排序,包括:
将图片搜索时所采用的搜索词与每张类簇图片的所述目标关键词进行匹配,获得匹配关键词;
根据所述匹配关键词作为搜索词的词权重和匹配关键词作为所述目标关键词的词权重,计算每张类簇图片的所述目标关键词与所述搜索词之间的匹配得分;
根据每个所述匹配得分对图片搜索结果进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010366994.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





