[发明专利]一种内容规则库管理系统及其编码方法有效
申请号: | 201611121969.X | 申请日: | 2016-12-08 |
公开(公告)号: | CN106599160B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 胡庆勇 | 申请(专利权)人: | 网帅科技(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/31;G06F16/35;G06F16/36;G06Q30/02 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 郭官厚 |
地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 内容 规则 管理 系统 及其 编码 方法 | ||
1.一种内容规则库管理系统,其特征在于,应用于将内容规则库的字典设定为20位的字典编码体系,支持5级标签体系,一级分类为领域,占3位,二级分类为行业,占4位,三级分类为应用,占5位,四级分类为栏目,占4位,五级分类为搜索内容、元数据或提取内容类型,占4位;四级分类的第一位为标识符,只能为0或1,其中0代表栏目,1代表行为;五级分类的第一位为0代表搜索,1代表元数据,2代表提取,如果是元数据类型,编码为13开始,3代表ID,如果是提取类型,则编码第二位为0代表文本,1代表浮点,2代表日期,3代表ID;20位为00000000000000000000代表未知的应用,包括:
内容规则库可视化管理模块,用于对规则库的增、删、查、改,同时提供对各个模块状态的监测,并从样本数据中提取内容规则的可视化操作;
URL数据预处理分类模块,基于用户上网日志,将需要深度内容分析的URL提取出来,导入样本数据库,清洗为样本数据,供规则分析人员使用,其中提取的内容包括应用规则,栏目规则,搜索规则,元数据规则,噪音规则和元数据规则;
重点应用APP/网站跟踪模块,重点应用指需要深度提取内容元数据的应用,重点应用在内容规则-应用规则中定义,并通过任务管理-重点应用启动重点应用跟踪模块,重点应用跟踪模块的输出,是样本数据-已知应用中的各种应用URL,供数据分析人员进一步提取各种内容规则使用;
网页复原模块,通过将URL深度分析后的内容整理为一些复原规则,提供给网页复原模块使用;复原的网页,提供给网页内容分析模块使用;使用元数据规则中定义的网页复原规则;
网页爬虫模块,基于爬虫URL生成模块处理后的数据,从互联网上爬取相关的网页内容,供后续的网页内容分析模块使用;
网页内容分析模块,通过对网页内容提取规则,将提取的内容与内容元数据对应,建立内容元数据规则库;
内容规则库,包括如下规则:APP应用规则、噪音规则、APP栏目动作规则、APP搜索关键字提取规则、APP内容元数据规则和网页复原规则。
2.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述URL数据预处理分类模块的预处理内容包括对URL的完整性进行预处理、对URL协议进行预处理、对URL的后缀名进行预处理、通过配置来自定义预处理规则和对处理数据的统计汇总,同时对未被所有规则标识的数据,输出到未知数据,进入规则库源数据输入表,供分析并制定规则分类。
3.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述网页内容分析模块分析的内容包括对网页/APP应用更新状态进行判断、对网页/APP应用编码进行识别、对网页/APP应用标题进行获取和对网页/APP应用内容的获取。
4.根据权利要求1所述的一种内容规则库管理系统,其特征在于,所述网页爬虫模块支持中文及多字节编码,并支持Unicode编码。
5.根据权利要求4所述的一种内容规则库管理系统,其特征在于,所述网页爬虫模块包括:
连接层,网络连接组件,用于连接到互联网,建立网络通讯;
解析层,对爬取到的网页内容、网页头、网页编码、多种格式文件进行解析,获取需要的信息;同时支撑APP的内容解析;
基础层,包含代理服务器负载均衡、线程池、url过滤、url存储、爬取内容存储、反防爬策略、网页更新状态校验、网页模拟登陆组件。
6.根据权利要求5所述的一种内容规则库管理系统,其特征在于,所述内容规则库支持多级分类体系;支持分类体系的扩展;支持分类体系映射;支持通过爬虫爬取互联网内容进行内容扩充;支持通过机器学习文本挖掘算法进行建模、并根据模型预测的分类结果进行内容扩充;支持中文分词词典库。
7.根据权利要求6所述的一种内容规则库管理系统,其特征在于,所述内容规则库定期对规则的参数配置进行自动优化,并给出优化建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网帅科技(北京)有限公司,未经网帅科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611121969.X/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法