[发明专利]一种违规在线商品检测方法有效
申请号: | 201210078995.4 | 申请日: | 2012-03-22 |
公开(公告)号: | CN102663025A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 张兰兰;田宁;谭磊;刘崟 | 申请(专利权)人: | 浙江盘石信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;王利强 |
地址: | 310011 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种违规在线商品检测方法,包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,找到包含网页中多个结构相似的信息块的最小深度的节点为临界节点,形成相关联信息点进行抽取的规则并建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典,对提取的商品属性信息通过基于字符匹配的方法进行分词;(4)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行识别判断,根据函数返回结果,判定违规在线商品的违规类别。本发明简化计算、及时性良好、适合多变的页面模式。 | ||
搜索关键词: | 一种 违规 在线 商品 检测 方法 | ||
【主权项】:
一种违规在线商品检测方法,其特征在于:所述检测方法包括以下步骤:(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点;(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性;根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形 成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充;对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典中,检查以给定字符串开头的其他词返回;(5)采用人工建立违规语义库,通过函数IllegalList将违规语义库中的词汇,和经过分词的商品属性信息相关内容词语字段进行判断,根据函数返回的结果,判定违规在线商品的违规类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210078995.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种微课程在线设计系统
- 下一篇:信息记录方法及装置