[发明专利]一种网站行业类型快速识别的方法在审
申请号: | 201811586061.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109753619A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 宋建昌;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F17/27 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行业类型 网站 目标网站 快速识别 基础规则 匹配 规则匹配 自动更新 统计 | ||
1.一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,其特征在于,所述网站行业类型快速识别的方法具体包括下述步骤:
步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体中是否有全国党政机关事业单位标志及链接规则、标题中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60-100;
步骤(2):将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;
当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;
当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);
步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;
所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60-100;
匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
2.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,所述基础规则,具体为:
所述域名后缀规则包括:
域名后缀为gov.cn的网站,是政务网站;该规则的分值为100;
域名后缀为edu.cn的网站,是教育行业网站;该规则的分值为100;
所述主体中是否有全国党政机关事业单位标志及链接规则是指:
域名主体中有全国党政机关事业单位标志及链接的网站,是政务网站;该规则的分值为100;
所述标题中是否有金融关键字规则包括:
域名标题中有金融关键字的网站,是金融行业网站;该规则的分值为80;
抓取机构地址或机构名称,并在中国银行业监督委员会官网检索存在的网站,是金融行业网站;该规则的分值为100;
所述标题中是否有行政机关关键字规则是指:
域名标题中有行政机关关键字的网站,是政务网站;该规则的分值为80;
所述标题中是否有企业关键字规则是指:
域名标题中有企业关键字的网站,是企业网站;该规则的分值为80;
所述标题中是否有社区关键字规则是指:
域名标题中有社区关键字的网站,是社区网站;该规则的分值为80;
所述标题中是否有教育关键字规则是指:
域名标题中有教育关键字的网站,是教育行业网站;该规则的分值为80。
3.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,所述网站行业类型对应的初始二级规则具体为:
政务网站二级规则:
主体底部存在若干链接指向以gov.cn结尾的网站;该规则的分值为分值80;
主体中存在关键字“办事大厅”、“党政领导”或者“组织机构”;该规则的分值为分值70;
教育行业网站二级规则:
主体中有关键字“学院概况”;该规则的分值为分值90;
主体中有关键字“课程”;该规则的分值为分值60;
金融行业网站二级规则:
主体中含有关键字“股票”、“借贷”、“分期”或者“抵押”;该规则的分值为分值70;
企业网站二级规则:
主体中有关键字“解决方案”、“产品中心”或者“招贤纳士”;该规则的分值为分值为80;
个人网站二级规则:
主体中有关键字“日记”或者“个人日记”;该规则的分值为分值60;
社区网站二级规则:
主体中有关键字“论坛”或者“社区”;该规则的分值为分值80;
主体中有关键字“热帖”或者“精华”;该规则的分值为分值60。
4.根据权利要求1所述的一种网站行业类型快速识别的方法,其特征在于,对于已识别行业类型的网站,能进行定期分析提取出该行业网站所具有的共同特征,然后将该特征作为二级规则,并根据该特征在网站中存在比例,确定该特征所形成的二级规则的分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811586061.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种品牌信息管理系统及其操作方法
- 下一篇:网页文档处理方法和系统