[发明专利]一种内容规则库管理系统及其编码方法有效

专利信息
申请号: 201611121969.X 申请日: 2016-12-08
公开(公告)号: CN106599160B 公开(公告)日: 2020-06-02
发明(设计)人: 胡庆勇 申请(专利权)人: 网帅科技(北京)有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F16/31;G06F16/35;G06F16/36;G06Q30/02
代理公司: 北京世誉鑫诚专利代理事务所(普通合伙) 11368 代理人: 郭官厚
地址: 100000 北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 内容 规则 管理 系统 及其 编码 方法
【权利要求书】:

1.一种内容规则库管理系统,其特征在于,应用于将内容规则库的字典设定为20位的字典编码体系,支持5级标签体系,一级分类为领域,占3位,二级分类为行业,占4位,三级分类为应用,占5位,四级分类为栏目,占4位,五级分类为搜索内容、元数据或提取内容类型,占4位;四级分类的第一位为标识符,只能为0或1,其中0代表栏目,1代表行为;五级分类的第一位为0代表搜索,1代表元数据,2代表提取,如果是元数据类型,编码为13开始,3代表ID,如果是提取类型,则编码第二位为0代表文本,1代表浮点,2代表日期,3代表ID;20位为00000000000000000000代表未知的应用,包括:

内容规则库可视化管理模块,用于对规则库的增、删、查、改,同时提供对各个模块状态的监测,并从样本数据中提取内容规则的可视化操作;

URL数据预处理分类模块,基于用户上网日志,将需要深度内容分析的URL提取出来,导入样本数据库,清洗为样本数据,供规则分析人员使用,其中提取的内容包括应用规则,栏目规则,搜索规则,元数据规则,噪音规则和元数据规则;

重点应用APP/网站跟踪模块,重点应用指需要深度提取内容元数据的应用,重点应用在内容规则-应用规则中定义,并通过任务管理-重点应用启动重点应用跟踪模块,重点应用跟踪模块的输出,是样本数据-已知应用中的各种应用URL,供数据分析人员进一步提取各种内容规则使用;

网页复原模块,通过将URL深度分析后的内容整理为一些复原规则,提供给网页复原模块使用;复原的网页,提供给网页内容分析模块使用;使用元数据规则中定义的网页复原规则;

网页爬虫模块,基于爬虫URL生成模块处理后的数据,从互联网上爬取相关的网页内容,供后续的网页内容分析模块使用;

网页内容分析模块,通过对网页内容提取规则,将提取的内容与内容元数据对应,建立内容元数据规则库;

内容规则库,包括如下规则:APP应用规则、噪音规则、APP栏目动作规则、APP搜索关键字提取规则、APP内容元数据规则和网页复原规则。

2.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述URL数据预处理分类模块的预处理内容包括对URL的完整性进行预处理、对URL协议进行预处理、对URL的后缀名进行预处理、通过配置来自定义预处理规则和对处理数据的统计汇总,同时对未被所有规则标识的数据,输出到未知数据,进入规则库源数据输入表,供分析并制定规则分类。

3.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述网页内容分析模块分析的内容包括对网页/APP应用更新状态进行判断、对网页/APP应用编码进行识别、对网页/APP应用标题进行获取和对网页/APP应用内容的获取。

4.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述网页爬虫模块支持中文及多字节编码,并支持Unicode编码。

5.根据权利要求4所述的一种内容规则库管理系统,其特征在于,所述网页爬虫模块包括:

连接层,网络连接组件,用于连接到互联网,建立网络通讯;

解析层,对爬取到的网页内容、网页头、网页编码、多种格式文件进行解析,获取需要的信息;同时支撑APP的内容解析;

基础层,包含代理服务器负载均衡、线程池、url过滤、url存储、爬取内容存储、反防爬策略、网页更新状态校验、网页模拟登陆组件。

6.根据权利要求5所述的一种内容规则库管理系统,其特征在于,所述内容规则库支持多级分类体系;支持分类体系的扩展;支持分类体系映射;支持通过爬虫爬取互联网内容进行内容扩充;支持通过机器学习文本挖掘算法进行建模、并根据模型预测的分类结果进行内容扩充;支持中文分词词典库。

7.根据权利要求6所述的一种内容规则库管理系统,其特征在于,所述内容规则库定期对规则的参数配置进行自动优化,并给出优化建议。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网帅科技(北京)有限公司,未经网帅科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611121969.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top