[发明专利]一种检测内容变更的方法和装置无效
申请号: | 201210299813.6 | 申请日: | 2012-08-21 |
公开(公告)号: | CN102902714A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 孙翔;吴欢琴 | 申请(专利权)人: | 盘古文化传播有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100162 北京市大兴区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 内容 变更 方法 装置 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种检测内容变更的方法和装置。
背景技术
在检测内容变更时通常采用通过建立的向量空间模型来计算文档间的相似性,进而确定某一篇的文档内容是否有变更。
向量空间模型是一种自然语言处理中常用的模型,将文档内容的处理简化为空间中的向量运算,并且以空间上的相似度表达文档内容中语义的相似度。当文档被表示为文档空间的向量时,可以通过计算向量之间的相似性来度量文档间的相似性。具体的,在向量空间模型中,两个文档之间的语义内容相似度以两个向量之间的夹角的余弦值表示。
然而,在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更。
发明内容
本发明的实施例提供一种检测内容变更的方法和装置,可以提高识别广告主内容变更的准确率,降低错误报警。
为达到上述目的,本发明的实施例采用如下技术方案:
一种检测内容变更的方法,包括:
分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;
分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;
根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;
当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
一种检测内容变更的装置,包括:
文本集合获取单元,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;
向量获取单元,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;
相似度确定单元,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;
判决单元,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
本发明实施例提供一种检测内容变更的方法和装置,通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
与现有技术中在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更相比,本发明实施例提供的方案采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种检测内容变更的方法的流程图;
图2为本发明实施例1提供的一种检测内容变更的装置的框图;
图3为本发明实施例2提供的一种检测内容变更的方法的流程图;
图4为本发明实施例2提供的三级页面示意图;
图5为本发明实施例2提供的对创意文本集合进行向量化的方法的流程图;
图6为本发明实施例2提供的一种检测内容变更的装置的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盘古文化传播有限公司,未经盘古文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210299813.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于Hadoop分布式计算平台的存储系统
- 下一篇:一种自动双端锯
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法