[发明专利]一种违禁品别名在线自动获取方法及系统无效
申请号: | 201010188991.2 | 申请日: | 2010-05-27 |
公开(公告)号: | CN101847242A | 公开(公告)日: | 2010-09-29 |
发明(设计)人: | 刘娟;何涛;李凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高,节约了大量的时间和人力。 | ||
搜索关键词: | 一种 违禁品 别名 在线 自动 获取 方法 系统 | ||
【主权项】:
一种违禁品别名在线自动获取方法,其特征在于,包括以下步骤:语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步骤进一步包括以下子步骤:①人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;②对集合Z使用下述正则表达式:″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″抽取其中所含的特殊格式,然后再次使用下述正则表达式:″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;③对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下: GoogleDis tan ce ( x , y ) = max ( log f ( x ) , log f ( y ) ) - log f ( x , y ) log N - min ( log f ( x ) , log f ( y ) ) 其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;④从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一步包括以下子步骤:①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下: score ( t ) = Σ r ∈ R GoogleDis tan ce ( t , r ) | R | 分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010188991.2/,转载请声明来源钻瓜专利网。