[发明专利]一种基于双数组字典树的搜索关键词提取系统在审

专利信息
申请号: 202110151716.1 申请日: 2021-02-04
公开(公告)号: CN112800316A 公开(公告)日: 2021-05-14
发明(设计)人: 张凤超 申请(专利权)人: 北京易车互联信息技术有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F16/31;G06F16/335;G06F16/35;G06F40/242;G06F40/279
代理公司: 北京棘龙知识产权代理有限公司 11740 代理人: 李改平
地址: 100089 北京市海淀区首都体育馆南路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双数 字典 搜索关键词 提取 系统
【说明书】:

本申请公开了一种基于双数组字典树的搜索关键词提取系统,包括用户接口、查询操作模块、检索模块、排序模块、文本操作模块、标引模块、索引模块、数据库管理模块、文本数据库模块、第一分词模块和第二分词模块,所述检索模块的内部设置有第一分词模块,索引模块的内部设置有第二分词模块,用户接口与查询操作模块之间相互连接,查询操作模块与检索模块之间相互连接,检索模块与排序模块之间相互连接,用户接口与数据库管理模块之间相互连接。本申请的有益之处在于充分利用AC状态机能高速完成模式匹配,达到快速识别短语文本中的汽车相关词汇,从而获得用户的详细意图,把意图传递到后面的搜索过程中,使检索结果更符合用户期望。

技术领域

本申请涉及一种关键词提取系统,具体是一种基于双数组字典树的搜索关键词提取系统。

背景技术

用户使用搜索引擎对内容检索的时候,如果出现长尾词,返回结果往往差强人意,前面的结果可能并不是用户想要的,因为长尾词中间各个词语是无差别的,基于对语义的分析,我们知道一个词语中间,往往有少数几个词语是关键词。对于一个汽车行业的引擎来说,我们需要提取出用户输入信息汽车相关的词语。以便于后面更好的进行分析处理。

对于这个问题业界的基本方案有如下几种:

方案一、TF-IDF算法,TF-IDF是一种数值统计方法,用于反映一个词对于预料中某篇文档的重要性,它的主要思想为:如果某个词在一篇文档中出现的频率高,即TF高;并且在其他文档中很少出现,即IDF高,则认为这个词具有很好的类别区分能力。

方案二、TextRank算法,此种算法的一个重要特点是可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。

方案三:候选词匹配:基于关键词词库的多模式匹配得到候选,这里最重要的工作是词库构建,往往会融合多种方法:垂直站点专有名词,百科词条,输入法细胞词库,广告主购买词

第一个问题、方案一缺点是有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性。

第二个问题、方案二的方案基于PageRank的,需要准备PageRank数据,而在识别耗时的实时性上不太好,还有就是旧页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

第三个问题、使用方案三太过依赖词典的实时性,词库构建。需要经常刷新,才能满足需要。因此,针对上述问题提出一种基于双数组字典树的搜索关键词提取系统。

发明内容

一种基于双数组字典树的搜索关键词提取系统,包括用户接口、查询操作模块、检索模块、排序模块、文本操作模块、标引模块、索引模块、数据库管理模块、文本数据库模块、第一分词模块和第二分词模块,所述检索模块的内部设置有第一分词模块,所述索引模块的内部设置有第二分词模块;

所述用户接口与查询操作模块之间相互连接,所述查询操作模块与检索模块之间相互连接,所述检索模块与排序模块之间相互连接。

进一步地,所述用户接口与数据库管理模块之间相互连接。

进一步地,所述文本操作模块与数据库管理模块之间相互连接。

进一步地,所述文本操作模块与标引模块之间相互连接。

进一步地,所述标引模块与索引模块之间相互连接。

进一步地,所述索引模块与检索模块之间相互连接。

进一步地,所述标引模块与数据库管理模块之间相互连接。

进一步地,所述数据库管理模块与文本数据库模块之间相互连接。

进一步地,所述用户接口为第三方打包、HTTP协议。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易车互联信息技术有限公司,未经北京易车互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110151716.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top