[发明专利]一种工业大数据搜索优化方法、系统、设备、介质、终端在审

专利信息
申请号: 202110714891.7 申请日: 2021-06-25
公开(公告)号: CN113553408A 公开(公告)日: 2021-10-26
发明(设计)人: 殷磊;孔宪光;杨天澍;王宇惊 申请(专利权)人: 西安电子科技大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/955;G06F40/284
代理公司: 西安长和专利代理有限公司 61227 代理人: 何畏
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 工业 数据 搜索 优化 方法 系统 设备 介质 终端
【说明书】:

发明属于工业数据处理技术领域,公开了一种工业大数据搜索优化方法、系统、设备、介质、终端,所述工业大数据搜索优化方法包括:首先收集工业领域专业词汇形成相关集合,将内容存入新文档并放在ik分词器配置文件夹中,然后在XML文档中配置工业扩展字典,形成工业分词器后,重启Elasticsearch搜索引擎,此时工业分词器构建完毕。本发明提出一种专门应用于工业的分词器,通过分析分词器的技术原理,构建工业分词器,在工业领域上对比工业分词器与主流通用中文分词器jieba、Ansj的分词结果的差异,结果表明,本发明提供的基于工业分词器的分词取得了更优秀的分类性能和鲁棒性,通过扩展工业专业词汇,使得分词效果和搜索效率得到有效提升。

技术领域

本发明属于工业数据处理技术领域,尤其涉及一种工业大数据搜索优化方法、系统、设备、介质、终端。

背景技术

目前,在工业信息化服务平台中,数据是整个平台的基石,检索获取数据,是平台核心部分。专业分词器设计又是构建数据搜索的关键技术。在工业领域,由于数据量大,数据来源多等特点,数据检索的效率并不高,故需对分词器进行研究,从而提升数据搜索效率。

Analyzer(分词器)可将数据文本中的词按具体的规则进行切分。每个分词器中存在一个抽象Analyzer类,Analyzer子类的不同决定了分词规则的不同,所以对于中文和外文,要用不同的分词器,且对于不同的工业场景,也要使用不同的分词器。分词搜索引擎是根据关键词查询后用底层算法进行匹配而完成分词的技术。为进一步提升工业大数据搜索效率,更好的完成工业大数据分析工作,基于倒排索引的索引机制,提出工业分词器概念,将分词器优化为适用于工业生产搜索的工业分词器,从而进一步提升工业大数据搜索的时间与效率。

分词结果的好坏程度对信息检索和查询结果均存在影响,分词结果是由于分词规则底层不同的算法所决定的。汉语分词和英语分词存在区别,汉语分词是以汉字为单位的,英文分词则一个单词代表一个英语分词结果。当词语的含义没有显著的区别,则需进行人工分词。分词方法可从规则、统计、语义以及理解等角度进行划分,如图8所示。

(1)基于规则的分词方法

从分词采用的规则进行划分,分词方法包含最大匹配规则分词法、逆向最大匹配规则分词法以及最佳匹配规则分词法。

最大匹配算法:此算法的分词规则是匹配的词越长越好,在进行分词时,首先依照分词词典最长词条长度截取待分词的词条,分词思想是尽量使得划分的词条长度最大,当词典中不含有该词条则去除整个词条的最后一个字符,继续进行匹配,直至匹配成功,具体流程如图9所示。

逆向最大匹配算法:此算法的分词规则也同样是匹配的词越长越好,在进行分词时,仍然首先依照分词词典最长词条长度截取待分词的词条,分词思想也是尽量使得划分的词条长度最大,当词典中不含有该词条时,此时去除整个词条的第一个字符,然后继续进行匹配,直至匹配成功,具体流程如图10所示。

逐词匹配算法:按照分词词典中词条的长度逐一遍历进行分词,如果待分词的词条存在于分词词典中,则进行分词,否则跳过继续进行遍历,直至词典中所有单词遍历完,此时结束分词。

(2)基于统计的分词方法

从分词的统计方向来划分,分词方法可以分为基于隐马尔科夫模型(HidenMarkov Model,HMM)、条件随机场模型(Conditional Random Fields,CRF)以及基于最大熵模型(Maximum Entropy Model,MaxEnt)等,此类分词方法分词性能稳定。通过利用不同的统计模型,统计近邻字符出现的次数,通过计算近邻字符出现的频率高低,进而判断能否组成词语。该方法可在分词过程中消除词语的歧义,更好的分析上下文完成生词的识别。此种分词方法可与词典分词方法结合使用完成分词,进而提升分词的效率。

(3)基于语义的分词方法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110714891.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top