[发明专利]用于处理社交网络中发布内容的装置和方法有效
申请号: | 201310537962.6 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103605691B | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 社交 网络 发布 内容 装置 方法 | ||
技术领域
本发明涉及计算机网络领域,具体涉及一种处理社交网络中发布内容的装置和方法。
背景技术
随着互联网的发展,各种网络应用,尤其是微博、博客、论坛、朋友圈等社交网络,成为人们获取信息、交流信息的重要渠道。然而在社交网络的发布内容中,存在相当量的广告内容,给用户带来了诸多不便,同时也降低了社交网络的质量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种处理社交网络中发布内容的装置和相应的一种处理社交网络中发布内容的方法。
依据本发明的一个方面,提供了一种处理社交网络中发布内容的装置,包括:内容获取单元,适于接收发布者在社交网络中的待发布内容;特征向量提取单元,适于检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;识别单元,适于根据所述特征向量,识别所述文本字段是否与广告特征数据库中的一个或多个记录匹配;屏蔽单元,适于在识别单元识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
可选地,所述内容获取单元,适于接收发布者在下述的至少一种社交网络中的待发布内容:微博、博客、论坛、朋友圈。
可选地,所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述文本字段与广告特征数据库中的记录匹配,否则不匹配。
可选地,所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
可选地,该装置进一步包括广告特征数据库更新单元,所述广告特征数据库更新单元,适于在确定所述文本字段与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加1。
可选地,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述文本字段与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
可选地,所述特征向量提取单元包括:中文文本获取子单元,适于对文本字段进行文本处理以获取中文文本;拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
可选地,所述中文文本获取子单元,适于对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字。
可选地,所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本字段中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
可选地,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
可选地,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
依据本发明的另一个方面,提供了一种处理社交网络中发布内容的方法,包括:接收发布者在社交网络中的待发布内容;检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
可选地,所述社交网络包括下述的至少一种:微博、博客、论坛、朋友圈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310537962.6/2.html,转载请声明来源钻瓜专利网。