[发明专利]一种内容规则库管理系统及其编码方法有效
| 申请号: | 201611121969.X | 申请日: | 2016-12-08 |
| 公开(公告)号: | CN106599160B | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 胡庆勇 | 申请(专利权)人: | 网帅科技(北京)有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/31;G06F16/35;G06F16/36;G06Q30/02 |
| 代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 郭官厚 |
| 地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 内容 规则 管理 系统 及其 编码 方法 | ||
本发明涉及一种内容规则库字典编码方法,将内容规则库的字典设定为20位的字典编码体系。本发明还公开一种内容规则库管理系统,包括:内容规则库可视化管理模块、URL数据预处理分类模块、重点应用APP/网站跟踪模块、网页复原模块、网页爬虫模块、网页内容分析模块、内容规则库。本发明的优点体现在:能够对用户访问移动互联网的行为日志进行大规模全视角的分析和翻译,进而形成移动互联网用户的全息知识图谱,为后续的各种内容分析应用进行支撑。
技术领域
本发明涉及数据处理技术领域,具体涉及一种内容规则库管理系统及其编码方法。
背景技术
电信运营商通过分光获得了客户上网的原始信令数据,经过第一级的DPI识别,输出了xDR合成的上网日志,但是一般经过第一级解析的数据不够细,规则不能承载过多,分析维度不灵活,因此需要进行DPI增强解析,对APP识别、网页分类、关键词分析、知识库体系等方面进一步增强,以便为后续的各种内容分析应用进行支撑。如何将这些数据异常庞大,纷繁复杂的数据翻译并标记为含有深度语义内容的信息,现有技术只对需要分析的数据结果提出了要求,但对如何达成需要的数据结果有如下的缺点:
1.只能翻译相对比较浅度的内容;
2.基本完全依靠人工标记;
3.只能对少量的样本数据做人工标记;
4.不能快速发现源数据结构的改变;
5.没有对如何完成这样的数据结果提供完整的解决方案,模型和算法。
发明内容
本发明的目的是针对现有技术中的不足,提供一种内容规则库管理系统及其编码方法,对用户访问移动互联网的行为日志进行大规模全视角的分析和翻译,进而形成移动互联网用户的全息知识图谱。
为实现上述目的,本发明公开了如下技术方案:
一种内容规则库字典编码方法,将内容规则库的字典设定为20位的字典编码体系,支持5级标签体系,一级分类为领域,占3位,二级分类为行业,占4位,三级分类为应用,占5位,四级分类为栏目,占4位,五级分类为搜索内容、元数据或提取内容类型,占4位;
四级分类的第一位为标识符,只能为0或1,其中0代表栏目,1代表行为;五级分类的第一位为0代表搜索,1代表元数据,2代表提取,如果是元数据类型,编码为13开始,3代表ID,如果是提取类型,则编码第二位为0代表文本,1代表浮点,2代表日期,3代表ID;
20位为00000000000000000000代表未知的应用。
本发明还公开一种内容规则库管理系统,应用如上所述的编码方法,包括:
内容规则库可视化管理模块,用于对规则库的增、删、查、改,同时提供对各个模块状态的监测,并从样本数据中提取内容规则的可视化操作;
URL数据预处理分类模块,基于用户上网日志,将需要深度内容分析的URL提取出来,导入样本数据库,清洗为样本数据,供规则分析人员使用,其中提取的内容包括应用规则,栏目规则,搜索规则,元数据规则,噪音规则和元数据规则;
重点应用APP/网站跟踪模块,重点应用指需要深度提取内容元数据的应用,重点应用在内容规则-应用规则中定义,并通过任务管理-重点应用启动重点应用跟踪模块,重点应用跟踪模块的输出,是样本数据-已知应用中的各种应用URL,供数据分析人员进一步提取各种内容规则使用;
网页复原模块,通过将URL深度分析后的内容整理为一些复原规则,提供给网页复原模块使用;复原的网页,提供给网页内容分析模块使用;使用元数据规则中定义的网页复原规则;
网页爬虫模块,基于爬虫URL生成模块处理后的数据,从互联网上爬取相关的网页内容,供后续的网页内容分析模块使用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网帅科技(北京)有限公司,未经网帅科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611121969.X/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





