[发明专利]一种基于垂直搜索引擎的图文知识库构建方法在审
申请号: | 201611014342.4 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106776710A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 雷方元;戴青云;赵慧民;蔡君;魏文国;罗建桢 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林瑞云 |
地址: | 510660 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 垂直 搜索引擎 图文 知识库 构建 方法 | ||
1.一种基于垂直搜索引擎的图文知识库构建方法,其特征在于,包括:首先在服务器后台定时定向抓取百科类网站的网页,然后分析抓取的网络百科知识内容,将网页中的图文信息分别提取,接着提取图像的纹理特征、颜色特征、形状特征等来构成图像加权特征,在此基础上按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储;最后用户检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述。
2.根据权利1要求所述的构建方法,所述的服务器后台定时定向抓取百科类网站的网页,具体为:首先设置包括维基百科中文网、百度百科、互动百科在内的多个百科知识网站作为知识库的信息源头,然后对这些网站的分类结构进行分析,根据所设定的主题,选择该主题类别的网页进行定时抓取,以获得相关主题网页的URL。
3.根据权利1要求所述的构建方法,所述的分析抓取的网络百科知识内容,图文分离网页内容,具体是将网页中的文本信息提取存储,将网页中的图片/图像保存。
4.根据权利1要求所述的构建方法,所述的提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征,具体为:将图像进行尺寸归一化,然后分别提取图像的纹理特征T,颜色特征C和形状特征S,并对这三种特征分别赋予权重w1,w2,w3,且w1+w2+w3=1,图像的加权特征F=w1T+w2C+w3S。
5.根据权利1要求所述的构建方法,所述的按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储,具体为:在数据库中,将关键词作为数据库的主键,图像特征作为辅关键词,将文本描述和图像对象进行存储。
6.根据权利1要求所述的构建方法,所述检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述,具体为:根据查询对象的情况分为三种类型。第一种、在数据库中可以通过输入待检索的文本在数据库中进行查找,反馈检索到的结果,以及该文本对应的图像;第二种、输入待查询的图像,采用图像特征加权方法计算查询图像的特征值,然后和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本;第三种、输入的为已经计算得到的图像特征值,则直接将查询的特征值和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本。
7.根据权利要求1所述的构建方法,其特征在于,图文知识库的构建包含有以下步骤:
步骤101.在服务器后台定时定向抓取百科类网站的网页;
步骤102.分析抓取的网络百科知识内容,图文分离网页内容;
步骤103.提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征;
步骤104.按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储;
步骤105,检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611014342.4/1.html,转载请声明来源钻瓜专利网。