[发明专利]一种网络资源搜索训练系统在审

专利信息
申请号: 201710368523.5 申请日: 2017-05-22
公开(公告)号: CN107239516A 公开(公告)日: 2017-10-10
发明(设计)人: 李文华 申请(专利权)人: 江苏德胜智业信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏创专利代理事务所(普通合伙)32273 代理人: 王华
地址: 212415 江苏省镇江市句容*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络资源 搜索 训练 系统
【说明书】:

技术领域

发明主要涉及网络数据检索与抓取系统。

背景技术

随着互联网的快速发展,互联网上的数据资源呈几何数字上升,对于特定信息的目标资源的检索,效率越来越低,而且检索得到的资源与目标资源的相近度无法确定,另外不同数据平台下的检索结果出现不一致情况,检索机制的不同造成实际结果与真实结果的差值无法缩小,进而造成搜索引擎的效率降低,成本高,而且无法匹配实时在变动的互联网海量资源。

发明内容

针对上述现有存在的问题和不足,本发明提供了一种网络资源搜索训练系统,网络资源中的目标资源检索效率更高,且具有自我更新特征关键信息权重值,从而提高了搜索精准度和效率。

发明内容:为解决上述技术问题,本发明所采用的技术手段为:一种网络资源搜索训练系统,包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:

所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;

所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;

所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;

所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;

所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:

w(t,i)为特征关键信息t在关键信息类别i中的权值,TF(t,i)表示特征关键信息在关键信息类别i中的频次,Cs为所有关键信息类别集合,t为信息类别的序号,i为当前信息类别下的关键信息的序号,F(i)表示特征关键信息t在该关键信息类别i中出现的频次,F(Cs)表示特征关键信息t在所有标记块中出现的总次数,n表示信息类别的总个数。

本发明对关键信息进行集合化和分类处理,并对各关键信息的近似度和在各自集合下的贡献比值进行优化模拟,得到关键信息的权重值从而以此为依据进行归一化处理进行训练生成得到特征关键信息,并作为训练后的搜索依据进行检索得到精确度更高的目标资源。本发明考虑了关键信息相近度和权重比值,经过数学公式进行模拟得到更精准的目标资源。

附图说明

图1为本发明所述系统的逻辑流程图。

具体实施方式

下面结合附图和具体实施例对本发明内容作进一步说明。

如图1所示,本发明的网络资源搜索训练系统,主要包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块。对于互联网上海量的数据资源内容,本系统对资源内容的类型进行了划分,可以以文字、视频、音频、图像、字段字符,或以内容生成格式为依据进行划分。使用者在确定需要搜索的目标关键信息后,本系统提取该关键信息内容并与系统的资源内容的比对形成一定规则下的关键信息集合,同时对相关联的信息进行修正并与使用者进行交互确认,确定后的关键信息,由本系统抓取模块在网络上进行网页信息的检索和抓取,抓取得到的数据送至信息内容解析模块进行处理。

信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;

所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;

所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:

w(t,i)为特征关键信息t在关键信息类别i中的权值,TF(t,i)表示特征关键信息在关键信息类别i中的频次,Cs为所有关键信息类别集合,t为信息类别的序号,i为当前信息类别下的关键信息的序号,F(i)表示特征关键信息t在该关键信息类别i中出现的频次,F(Cs)表示特征关键信息t在所有标记块中出现的总次数,n表示信息类别的总个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏德胜智业信息技术有限公司,未经江苏德胜智业信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710368523.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top