[发明专利]一种网站行业类型快速识别的方法在审
申请号: | 201811586061.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109753619A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 宋建昌;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F17/27 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行业类型 网站 目标网站 快速识别 基础规则 匹配 规则匹配 自动更新 统计 | ||
本发明涉及网站行业类型识别技术,旨在提供一种网站行业类型快速识别的方法。该种网站行业类型快速识别的方法包括下述步骤:将目标网站依次匹配基础规则,当出现统计分大于或等于100的行业类型时,则将该行业类型作为目标网站的行业类型;当无法利用基础规则判断时,则将目标网站分别匹配所有二级规则,最后将统计分最高的行业类型作为目标网站的行业类型。本发明提供了一套识别行业网站行业类型的完整技术方案,能基于规则匹配识别网站行业类型,并能自动完善规则及对规则进行自动更新,方便大家对行业网站的使用。
技术领域
本发明是关于网站行业类型识别技术领域,特别涉及一种网站行业类型快速识别的方法。
背景技术
网站行业类型是指网站有规则的按照一定的科学依据,对该网站所从事和经营的模式和类型进行详细划分。
网站行业类型一般来说分为以下几种类型:政府、金融、教育、个人、企业、社区。一般来说每种类型的网站都有相似的网站结构和经营模式。从技术角度来看,对特定行业的网站进行取样分析提取其共有的特性形成特定规则,基于这些规则来对网站行业属性进行分析归类。
现有网站行业类型识别,多采用单一的html关键字来识别,这种方式有很多局限性和很高的错误率,这样在无形当中增加了人工成本,效率不高。总的来说,存在以下缺点:1)关键字识别方式单一;2)错误率高;3)人工二次验证与错误数据分析。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种按照网站行业类型快速识别归类的方法。为解决上述技术问题,本发明的解决方案是:
提供一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,所述网站行业类型快速识别的方法具体包括下述步骤:
步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体(body)中是否有全国党政机关事业单位标志及链接规则、标题(title)中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60-100;
步骤(2):输入目标网站,将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;
当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;
当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);
步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;
所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60-100;
匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
在本发明中,所述基础规则,具体为:
所述域名后缀规则包括:
域名后缀为gov.cn的网站,是政务网站;该规则的分值为100;
域名后缀为edu.cn的网站,是教育行业网站;该规则的分值为100;
所述主体中是否有全国党政机关事业单位标志及链接规则是指:
域名主体中有全国党政机关事业单位标志及链接的网站,是政务网站;该规则的分值为100;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811586061.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种品牌信息管理系统及其操作方法
- 下一篇:网页文档处理方法和系统