[发明专利]一种违禁品别名在线自动获取方法及系统无效

申请号：	201010188991.2	申请日：	2010-05-27
公开（公告）号：	CN101847242A	公开（公告）日：	2010-09-29
发明（设计）人：	刘娟;何涛;李凯	申请（专利权）人：	武汉大学
主分类号：	G06Q30/00	分类号：	G06Q30/00;G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	张火春
地址：	430072***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及信息抽取技术领域，尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤，利用搜索引擎创建语料，该语料含有指定违禁品的多种别名；违禁品别名抽取步骤，从创建的语料中抽取出别名，并利用Google距离对每个抽取的别名给予一定的分值，该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称，就可以利用互联网自动获得该违禁品的各种别名，获取的别名召回率高，节约了大量的时间和人力。
搜索关键词：	一种违禁品别名在线自动获取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种违禁品别名在线自动获取方法，其特征在于，包括以下步骤：语料创建步骤，利用搜索引擎创建语料，该语料含有指定违禁品的多种别名，该步骤进一步包括以下子步骤：①人为提供违禁品名称p1和p2，将“p1”、“p2”分别提交给百度搜索，分别抓取前100条返回结果的网页标题，同时将“p1”“p2”一起提交给百度，抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要，将以上所有的抓取内容一起构成为集合Z；②对集合Z使用下述正则表达式：″[\\，、-/|，\-\s](([\u4e00-\u9fa5]{2，5}[\\，、-/|，\-\s]){2，})″抽取其中所含的特殊格式，然后再次使用下述正则表达式：″[\u4e00-\u9fa5]{2，5}[\\，、-/|，\-\s]″从上一步的结果中抽取候选的违禁品别名，将抽取的候选违禁物品别名放在一起构成集合S；③对S中的每一个元素q分别计算q和p1，p2的Google距离，选取两个距离中较小的一个做为q的分值，其中Google距离计算公式如下： GoogleDis tan ce ( x , y ) = max ( log f ( x ) , log f ( y ) ) - log f ( x , y ) log N - min ( log f ( x ) , log f ( y ) ) 其中f(x)为利用Baidu搜索x所找到的网页篇数，f(y)为利用Baidu搜索y所找到的网页篇数，f(x，y)为利用Baidu搜索x和y所找到的网页篇数，N为Baidu索引的页面篇数，在我们这里近似的取N等于10的10次方；④从S中选出具有代表性并且和(p1，p2)的相关程度比较高的别名作为种子集合E；⑤将E中的元素两两组合后分别提交给百度，抓取每次返回结果的前200条标题，将这些标题放在一起构成语料C；违禁品别名抽取步骤，从创建的语料中抽取出别名，并利用Google距离对每个抽取的别名给予一定的分值，该分值表示此别名和指定违禁品之间的相关程度，该步骤进一步包括以下子步骤：①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名，构成集合K，从K中选出最高频的10个候选违禁品别名组成集合F，取F和语料创建步骤中种子集合E的交集组成集合R，作为(p1，p2)的概念代表；②使用向量法将集合K中的一部分非违禁品别名过滤掉，过滤后的集合记为T；③计算T中每一个元素和R中所有元素的Google平均距离，将该值作为该元素的分值，公式如下： score ( t ) = Σ r ∈ R GoogleDis tan ce ( t , r ) | R | 分值越低代表该别名和(p1，p2)所表示的违禁品相关程度越高，分值越高则相关程度越低，将T中的元素按照分值排序后输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010188991.2/，转载请声明来源钻瓜专利网。

上一篇：一种基于DCT变换的矢量地图数据盲水印方法
下一篇：一种对会员消费行为进行管理的控制装置以及控制方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种违禁品别名在线自动获取方法及系统无效

专利文献下载