[发明专利]一种互联网行为标注引擎及对应该引擎的行为标注方法有效

专利信息
申请号: 201310072271.3 申请日: 2013-03-07
公开(公告)号: CN103136360A 公开(公告)日: 2013-06-05
发明(设计)人: 唐波;李骄阳;张祺;薛忠军;高福强;褚秀良;庞岩 申请(专利权)人: 北京宽连十方数字技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 100061 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 行为 标注 引擎 应该 方法
【说明书】:

技术领域

发明涉及一种用户互联网行为数据的收集和分析技术,具体公开了一种互联网行为标注引擎及对应该引擎的行为标注方法。

背景技术

长期以来,困扰企业最大的难题就是“如何更加了解他的客户”。在互联网上,任何行为都有前兆。要买商品,必先浏览,对比,询价;要搞活动,必先征集、讨论、策划;通过对用户互联网行为数据的收集和分析,企业具备了预判物理世界中顾客未来行为的能力。

互联网用户行为大数据挖掘必须具备管理不同的数据类型与数据结构的能力。多样性(variety)是大数据(Big Data)的基本特征之一。大数据通常是结构化数据、半结构和无结构数据的混合体,互联网中海量文本是典型的无结构数据。如何将无结构的文本数据转化为结构数据,如何管理混合结构类型的数据,如何将大量增长的用户上网日志还原为可识别与可理解的用户行为,这些问题是大数据背景下,互联网用户行为研究中急需解决的重要问题。

基于内容的信息检索和数据挖掘成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。其基本原理是通过输入自然语言规则,切分出文本中的“关键词”,通过测算“关键词”语义距离及频数,可以较为精确地整体标记文本的内容与类型。文本挖掘技术解决了对文本内容的识别和对文本数据的结构化转换过程,但文本挖掘技术形成的文本分类体系本质上是一种基于名词体系的词典规则,其数据结构为树形结构(即数据元素之间的一对多关系);而用户上网行为数据结构为图状结构(即数据元素之间存在多对多的关系),因而当前的文本分类技术难以满足互联网用户行为分析的需要,主要存在的不足有以下几点:

1.基于已有分类词库,对新词的依赖权重较低或为0。

2.增加新分类困难:每个分类都需要大量的训练集文件进行训练,获取该类词库。

3.分类体系变动困难:若分类体系发生调整,则词库需要全部重新训练。

4.分类结果的准确性与待分类的文本长度有关系,当待分类的文本长度小于阀值(如短于100个字)时则分开准确性大大降低。

5.只能处理互联网中的文本分类,对于视频、音频等数据无能为力。

6.文本分类技术使用的多种算法,依据文本相似度产生的分类准确率一般低于90%。

7.文本分类体系不能完整描述行为,静态的文本分类体系是用户行为标记语言的一部分。因为文本内容不能等同于用户行为,文本分类体系亦不能等同于用户行为标记语言。当前多数网站能够为用户提供“一站式”的服务,即网站不仅向用户提供特定内容的多种文本类型的信息产品,且同时支持浏览、搜索、下载、在线消费、支付等多种信息产品消费方式。例如,对于同一篇小说,用户可以“浏览”也可以“下载”,但“浏览”和“下载”是不同的用户行为,不同的行为反映了用户对特定内容的需求程度和消费方式的差异。基于文本内容的标记方法不能反映出针对同一内容用户上网行为的差异。

8.文本分类体系难以满足“以个体用户为核心”的移动互联网用户行为分析的描述需要。当前文本分类体系多用于网站分析中,在网站分析中以文本分类体系作为描述的自变量,以用户群体行为发生频数作为因变量;而用户行为分析,尤其是移动互联网用户行为分析中经常需要以个体用户作为自变量,当文本分类体系变成因变量时难以提供精准和多元组合描述维度。实际上,当前无论是网站分析还是用户分析,{用户,文本}、{网站,用户}、{网站,文本}的二元组已经难以满足实践中的分析需要。

发明内容

本发明所要解决的技术问题是将用户上网日志还原为用户行为记录。即建立以“个体用户行为”为核心的互联网用户行为标记语言体系,以满足移动互联网用户行为分析对数据的需要。综合识别互联网用户的文本、音频、视频等数据的分类、主题、及内容对象。

本发明为解决上述技术问题采用以下技术方案:一种互联网行为标注引擎,包括分类体系模块、语义分析模块、爬取程序模块、规则库模块、知识库模块、规则解析器模块、自学习程序模块,其中:

所述分类体系模块依据HTTP日志标记规则对规则库模块和知识库模块中的数据进行分类,其中所述HTTP日志标记规则定义的基本逻辑结构为:用户行为=行为主体+行为标识+行为状态;

所述语义分析模块用于根据分类体系模块中定义好的分类项,识别出待处理文本隶属的分类类别;

所述爬取程序模块用于获取用户访问过的、待分类的互联网URL资源数据,并将这些数据保存到知识库模块中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宽连十方数字技术有限公司,未经北京宽连十方数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310072271.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top