[发明专利]一种智能社交平台广告预警及处理方法有效
申请号: | 201410401416.4 | 申请日: | 2014-08-14 |
公开(公告)号: | CN104156447A | 公开(公告)日: | 2014-11-19 |
发明(设计)人: | 黄金海;周建政;王荣波;严俊杰;徐金剑;钱志;孙俊杰 | 申请(专利权)人: | 天格科技(杭州)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310005 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种智能社交平台广告预警及处理方法。本发明基于大量历史数据的统计分析,生成恶意广告行为和正常用户行为的特征,以及用户发言内容的特征,通过分析比较用户发言的内容及行为与大数据统计的特征的相似程度,实时判断用户是否为广告用户,如果是广告用户则进行及时预警,并由人工及时跟进确认审核。经人工确认后的历史广告数据及非广告数据,动态学习提取通用的广告匹配模式,再用于对实时数据进行判断及预警。该发明有效地缩短了预警的时间消耗,并提高了准确率。最终实现了及时、准确的智能社交平台广告预警及处理。 | ||
搜索关键词: | 一种 智能 社交 平台 广告 预警 处理 方法 | ||
【主权项】:
一种智能社交平台广告预警及处理方法,其特征在于该方法包括以下步骤:步骤1.获取社交平台用户实时聊天数据;步骤2.对聊天数据进行预处理;步骤3.对用户行为进行统计、对用户发言内容进行分析,具体是:统计以下行为:3‑1)用户最近2小时的发言量是否超过一定阈值;3‑2)用户最近2小时发言包含中文数量是否超过一定阈值;3‑3)用户最近20分钟内发言句数与发言不同数比值超过10的,且发言句数超过阈值,去重后小于一定阈值的;3‑4)用户单个IP一小时内和一定阈值以上用户聊天;3‑5)用户单个硬盘码和多个用户聊天,聊天用户数超过一定阈值的;3‑6)用户单位时间内与过多用户聊天的;3‑7)用户发言字数差过于单一的;分析发言内容:①构造正常文本库和广告文本库;②计算新文本中每个字出现时是广告文本的概率;p(s|w)=p(w|s)*p(s)p(w|s)*p(s)+p(w|h)*p(h)]]>式中,s表示广告文本,h表示正常的文本,w表示文本中出现的每个字;每个字的概率不为零,最小约定为1%;③计算新文本的联合概率,如果大于阈值则判断为广告;p=p1*p2*...pnp1*p2*...pn+(1-p1)*(1-p2)*...(1-pn)]]>式中,pi是新文本中每个字为广告文本的概率,n表示文本中字的个数;如果用户行为属于上述七种行为中的一种或者新文本的联合概率大于设定阈值,则认为此用户可疑,先进行误告可能性的分析,将可疑内容与历史误告警库进行对比,如果在误告警库中出现过的,则判断此记录为误告,不需再人工确认;如果没有在误告警库中出现,则认为此用户为疑似广告用户,则转至步骤4;步骤4.对识别出来的广告信息进行预警;步骤5.对预警内容确定其广告置信度;置信度高的直接接入广告库,置信度低的转入步骤6步骤6.预警内容人工确认,如果能确认是广告的,则加入广告库,再进行后续相关操作;如果不是广告的,则选择误告,加入误告警库;步骤7.对确认结果接入平台权限进行直接处理;步骤8.确认后的广告信息,加入广告库,实时更新训练器,计算新加入广告模式,进行机器学习;具体是:8‑1)取最近3天的广告数据,两两进行比较,把两条广告语中不同的字符利用通配符进行替换;如果替换掉的字符数占整个广告语的长度少于一半或一定阈值的,认为广告具有相关性,把通配符替换后的广告语做为一个模式,以此类推,得到所有的广告模式,去重后得到最终的模式集;8‑2)将8‑1)中去重后的广告模式集做为正规表达式的模式,最近3天的广告数据做为内容,逐一进行匹配,匹配成功的内容忽略,匹配不成功的内容做为一个新模式加入到模式集;8‑3)把8‑2)中的模式集做为新内容,重新迭代执行8‑1)和8‑2)步骤,直到没有再新增加的模式,这样可以得到一个最简模式集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天格科技(杭州)有限公司,未经天格科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410401416.4/,转载请声明来源钻瓜专利网。