[发明专利]用于问答社区中屏蔽广告内容的装置和方法在审

专利信息
申请号: 201310537963.0 申请日: 2013-11-04
公开(公告)号: CN103605692A 公开(公告)日: 2014-02-26
发明(设计)人: 孙林;陈培军;秦吉胜 申请(专利权)人: 北京奇虎科技有限公司;奇智软件(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市隆安律师事务所 11323 代理人: 权鲜枝
地址: 100088 北京市西城区新*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 问答 社区 屏蔽 广告 内容 装置 方法
【说明书】:

技术领域

发明涉及计算机网络领域,具体涉及一种用于问答社区中屏蔽广告内容的装置和方法。

背景技术

随着互联网的发展,网络,尤其是问答社区,成为人们获取信息、交流信息的重要渠道,问答社区的基本形式是信息发布者发布待提问文本/答案文本。然而在问答社区中,存在相当量的广告内容,给用户带来了诸多不便,同时也降低了问答社区的质量。为了解决这个问题,问答社区中屏蔽广告内容的研究工作逐渐开展起来,以期望能够屏蔽广告内容。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种问答社区中屏蔽广告内容的装置和相应的一种问答社区中屏蔽广告内容的方法。

依据本发明的一个方面,提供了一种问答社区中屏蔽广告内容的装置,包括:文本获取单元,适于接收发布者在问答社区中编辑的待提问/答案文本;特征向量提取单元,适于提取所述待提问/答案文本中包含的一个或多个特征向量;识别单元,适于根据所述特征向量,识别所述待提问/答案文本是否与广告特征数据库中的一个或多个记录匹配;屏蔽单元,适于在识别单元识别出上述匹配时,将所述待提问/答案文本作为广告内容进行屏蔽处理。

可选地,所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待提问/答案文本与广告特征数据库中的记录匹配,否则不匹配。

可选地,所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。

可选地,该装置进一步包括广告特征数据库更新单元,所述广告特征数据库更新单元,适于在确定所述待提问/答案文本与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加1。

可选地,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待提问/答案文本与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。

可选地,所述特征向量提取单元包括:中文文本获取子单元,适于对待提问/答案文本进行文本处理以获取中文文本;拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。

可选地,所述中文文本获取子单元,适于对待提问/答案文本进行数据清洗操作,将文本中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字。

可选地,所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将待提问/答案文本中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对待提问/答案文本进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。

可选地,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。

可选地,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。

依据本发明的另一个方面,提供了一种答社区中屏蔽广告内容的方法,包括:接收发布者在问答社区中编辑的待提问/答案文本;提取所述待提问/答案文本中包含的一个或多个特征向量;根据所述特征向量,识别所述待提问/答案文本是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,将所述待提问/答案文本作为广告内容进行屏蔽处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310537963.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top