[发明专利]广告识别规则归纳方法、装置及设备在审
申请号: | 201510768446.3 | 申请日: | 2015-11-11 |
公开(公告)号: | CN106682677A | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 周志明;丁俊玮 | 申请(专利权)人: | 广州市动景计算机科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙)11452 | 代理人: | 屠长存 |
地址: | 510627 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种广告识别规则归纳方法、装置及设备。其中,基于第一网址列表生成训练集;根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每个元素标注为广告元素或非广告元素;通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型;基于第二网址列表生成测试集;基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素;对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则。此时,可以使用新的广告识别规则来识别页面中的广告元素,也可以将新的广告识别规则和人工标注的规则/广告识别软件的广告识别规则进行结合,来识别页面中的广告元素。 | ||
搜索关键词: | 广告 识别 规则 归纳 方法 装置 设备 | ||
【主权项】:
一种广告识别规则归纳方法,包括:基于第一网址列表生成训练集,所述训练集包括所述第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;根据人工和/或通过广告识别软件进行识别的结果,将所述训练集中的每一个元素标注为广告元素或非广告元素;通过机器学习算法,基于所述训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型;基于第二网址列表生成测试集,所述测试集包括所述第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;基于所述测试集中各元素的广告识别特征,使用所述广告识别模型识别所述测试集中的广告元素;对所述测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市动景计算机科技有限公司,未经广州市动景计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510768446.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型圆梳机锡林骨架用副夹板固定释放装置
- 下一篇:一种巡回清洁装置