[发明专利]一种基于B2B平台的核心关键词自动提取方法有效
申请号: | 201410765503.8 | 申请日: | 2014-12-11 |
公开(公告)号: | CN104408173B | 公开(公告)日: | 2016-12-07 |
发明(设计)人: | 徐飞 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/06 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈建和 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种基于B2B平台的核心关键词自动提取方法,针对英文产品名称,基于英文语法和语义,以提取核心关键词。本发明提供的基于B2B平台的核心关键词自动提取方法,在大数据并发计算中、在英文单词各种时态转换成原型时、根据一组规则进行单词处理并进行自我学习方面均具有明显优势。 | ||
搜索关键词: | 一种 基于 b2b 平台 核心 关键词 自动 提取 方法 | ||
【主权项】:
一种基于B2B平台的核心关键词自动提取方法,其特征在于:包括如下步骤:(1)将B2B平台中的用户设置产品名称、搜索词以及行业热门词作为词库源,对词库源进行预处理后保存在数据集市中,构成产品名称核心词库;对词库源进行预处理的方法为:对用户设置产品名称,首先采用用户设置产品名称高频使用的原则,剔除其中使用次数较少的用户设置产品名称;再将对应用户设置产品名称的用户设置关键词保存在用户设置关键词库中;对搜索词,首先过滤掉包括标点和特殊符号在内的非用词;再采用搜索词高频使用的原则,剔除其中最近半年使用频率较小的搜索词;然后通过核心分词处理器进行预处理,形成搜索关键词保存在搜索高频词库中;对行业热门词,按行业分类,首先过滤掉包括标点和特殊符号在内的非用词;再采用行业热门词高频使用的原则,剔除其中使用次数较少的行业热门词;然后通过核心分词处理器进行预处理,形成行业热门关键词保存在行业高频词库中;(2)将当前网站上所有有效的产品名称,首先过滤掉包括标点和特殊符号在内的非用词;然后通过核心分词处理器进行预处理,将所得产品名称保存在产品高频词库中;(3)将产品高频词库中的产品名称与产品名称核心词库进行匹配,将匹配得到的产品名称去重后按照产品名称中出现的先后顺序输出,每个产品名称一条记录,保存在数据集市中,构成产品名称的核心关键词;匹配规则为:①如果产品名称中出现搜索关键词,并且该搜索关键词为用户设置关键词;②如果产品名称中出现搜索关键词,并且该搜索关键词为行业热门关键词;将满足上面任意一条匹配规则的产品名称中出现的搜索关键词定义为产品名称的核心关键词;所述核心分词处理器包括分词处理器、词缀处理器、词根处理器、单复数处理器、时态处理器、相似度处理器、单词重组模块、关键词索引库和学习库,其中:所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,按照单词和词组来进行分词处理,组合形成<产品名称,关键词>序列,并根据产品ID进行排序;所述词缀处理器,对分词处理器处理后产生的数据,去除各单词前/后缀,将单词的其他形式转化为名词,或将派生词转化为名词,将得到的名词与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;所述词根处理器,对词缀处理器处理后产生的数据,根据词根算法依据单词的词性进行词根提取,再将提取的词根与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;所述单复数处理器,对词根处理器处理后产生的数据,进行单复数处理,将单词转换为原型,更新形成<产品名称,关键词>序列;所述时态处理器,对单复数处理器处理后产生的数据,进行时态处理,将单词转换为原型,更新形成<产品名称,关键词>序列;所述相似度处理器,当匹配得到的单词存在两个以上含义时,通过相似度处理器计算出最大相似度的词意;所述单词重组模块,对时态处理器处理后产生的数据,首先通过拼词词典检查、词形距离和最小编辑距离计算、相似键法则处理,剔除拼写出错的单词;接着通过学习库的处理,给出正确拼写的单词,再组合成正确数据结构的数据,存放至缓存中;最后根据行业类型,对缓存中的数据建立索引,输出至核心关键词索引库中;所述关键词索引库,将缓存中的数据建立成核心关键词索引文本文件;同时,针对单词重组模块输出的行业核心词建立行业核心词索引文本文件,针对单词重组模块输出的搜索核心词建立搜索核心词索引文本文件;所述学习库,包括学习器、知识库、执行器和评分器四个基本部分,当词缀处理器、词根处理器、产品相关处理器和单词重组模块产生的数据输出至学习库,数据首先进入学习器;学习器结合知识库中的知识对输入数据进行学习,先建立一组规则,然后计算规则权重和变量权重,将建立的规则及计算量输出至知识库;知识库对输入数据进行一系列的思维过程以获得知识,所述知识是指一系列的有规律的算法,若获得的算法已经存在知识库中,则检查是否满足更新知识库的条件,若满足更新条件则对知识库进行更新,否则将数据返回学习器中;执行器对知识库获得的知识进行执行,评分器对执行器执行的结果进行评分,若评分合格,则该知识满足更新知识库的条件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410765503.8/,转载请声明来源钻瓜专利网。