[发明专利]一种网络资源搜索训练系统在审
申请号: | 201710368523.5 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107239516A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 李文华 | 申请(专利权)人: | 江苏德胜智业信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏创专利代理事务所(普通合伙)32273 | 代理人: | 王华 |
地址: | 212415 江苏省镇江市句容*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了种网络资源搜索训练系统,本系统对关键信息进行集合化和分类处理,并对各关键信息的近似度和在各自集合下的贡献比值进行优化模拟,得到关键信息的权重值从而以此为依据进行归一化处理进行训练生成得到特征关键信息,并作为训练后的搜索依据进行检索得到精确度更高的目标资源。本发明考虑了关键信息相近度和权重比值,经过数学公式进行模拟得到更精准的目标资源。 | ||
搜索关键词: | 一种 网络资源 搜索 训练 系统 | ||
【主权项】:
一种网络资源搜索训练系统,其特征在于:包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:w(t,i)=-F(i)×Σs=1nF(i)F(Cs)log(F(i)F(Cs))Cs={title,keywords,description,updateparameter,A}---(1)]]>w(t,i)为特征关键信息t在关键信息类别i中的权值,TF(t,i)表示特征关键信息在关键信息类别i中的频次,Cs为所有关键信息类别集合,t为信息类别的序号,i为当前信息类别下的关键信息的序号,F(i)表示特征关键信息t在该关键信息类别i中出现的频次,F(Cs)表示特征关键信息t在所有标记块中出现的总次数,n表示信息类别的总个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏德胜智业信息技术有限公司,未经江苏德胜智业信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710368523.5/,转载请声明来源钻瓜专利网。