[发明专利]用于处理社交网络中发布内容的装置和方法有效
申请号: | 201310537962.6 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103605691B | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种处理社交网络中发布内容的装置和方法,其中该方法包括接收发布者在社交网络中的待发布内容;检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。使用本发明的装置和方法,可以由待发布内容中的文本字段提取出特征向量,以及根据特征向量识别文本字段是否与广告特征数据库中的一个或多个记录匹配,从而能够从发布者在社交网络中的待发布内容中识别出广告内容并屏蔽相应的待发布内容。 | ||
搜索关键词: | 用于 处理 社交 网络 发布 内容 装置 方法 | ||
【主权项】:
一种处理社交网络中发布内容的装置,包括:内容获取单元,适于接收发布者在社交网络中的待发布内容;特征向量提取单元,适于检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;其中,通过检测断句符号,将所述文本字段切分为多段文本,进而得到多个特征向量;或者不切分所述文本字段,进而得到一个特征向量;识别单元,适于根据所述特征向量,识别所述文本字段是否与广告特征数据库中的一个或多个记录匹配;屏蔽单元,适于在识别单元识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理;其中,所述特征向量提取单元包括:中文文本获取子单元,适于对文本字段进行文本处理以获取中文文本;所述中文文本获取子单元,适于对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字;所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本字段中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310537962.6/,转载请声明来源钻瓜专利网。