[发明专利]一种工业大数据搜索优化方法、系统、设备、介质、终端在审
申请号: | 202110714891.7 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113553408A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 殷磊;孔宪光;杨天澍;王宇惊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/955;G06F40/284 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 何畏 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 数据 搜索 优化 方法 系统 设备 介质 终端 | ||
本发明属于工业数据处理技术领域,公开了一种工业大数据搜索优化方法、系统、设备、介质、终端,所述工业大数据搜索优化方法包括:首先收集工业领域专业词汇形成相关集合,将内容存入新文档并放在ik分词器配置文件夹中,然后在XML文档中配置工业扩展字典,形成工业分词器后,重启Elasticsearch搜索引擎,此时工业分词器构建完毕。本发明提出一种专门应用于工业的分词器,通过分析分词器的技术原理,构建工业分词器,在工业领域上对比工业分词器与主流通用中文分词器jieba、Ansj的分词结果的差异,结果表明,本发明提供的基于工业分词器的分词取得了更优秀的分类性能和鲁棒性,通过扩展工业专业词汇,使得分词效果和搜索效率得到有效提升。
技术领域
本发明属于工业数据处理技术领域,尤其涉及一种工业大数据搜索优化方法、系统、设备、介质、终端。
背景技术
目前,在工业信息化服务平台中,数据是整个平台的基石,检索获取数据,是平台核心部分。专业分词器设计又是构建数据搜索的关键技术。在工业领域,由于数据量大,数据来源多等特点,数据检索的效率并不高,故需对分词器进行研究,从而提升数据搜索效率。
Analyzer(分词器)可将数据文本中的词按具体的规则进行切分。每个分词器中存在一个抽象Analyzer类,Analyzer子类的不同决定了分词规则的不同,所以对于中文和外文,要用不同的分词器,且对于不同的工业场景,也要使用不同的分词器。分词搜索引擎是根据关键词查询后用底层算法进行匹配而完成分词的技术。为进一步提升工业大数据搜索效率,更好的完成工业大数据分析工作,基于倒排索引的索引机制,提出工业分词器概念,将分词器优化为适用于工业生产搜索的工业分词器,从而进一步提升工业大数据搜索的时间与效率。
分词结果的好坏程度对信息检索和查询结果均存在影响,分词结果是由于分词规则底层不同的算法所决定的。汉语分词和英语分词存在区别,汉语分词是以汉字为单位的,英文分词则一个单词代表一个英语分词结果。当词语的含义没有显著的区别,则需进行人工分词。分词方法可从规则、统计、语义以及理解等角度进行划分,如图8所示。
(1)基于规则的分词方法
从分词采用的规则进行划分,分词方法包含最大匹配规则分词法、逆向最大匹配规则分词法以及最佳匹配规则分词法。
最大匹配算法:此算法的分词规则是匹配的词越长越好,在进行分词时,首先依照分词词典最长词条长度截取待分词的词条,分词思想是尽量使得划分的词条长度最大,当词典中不含有该词条则去除整个词条的最后一个字符,继续进行匹配,直至匹配成功,具体流程如图9所示。
逆向最大匹配算法:此算法的分词规则也同样是匹配的词越长越好,在进行分词时,仍然首先依照分词词典最长词条长度截取待分词的词条,分词思想也是尽量使得划分的词条长度最大,当词典中不含有该词条时,此时去除整个词条的第一个字符,然后继续进行匹配,直至匹配成功,具体流程如图10所示。
逐词匹配算法:按照分词词典中词条的长度逐一遍历进行分词,如果待分词的词条存在于分词词典中,则进行分词,否则跳过继续进行遍历,直至词典中所有单词遍历完,此时结束分词。
(2)基于统计的分词方法
从分词的统计方向来划分,分词方法可以分为基于隐马尔科夫模型(HidenMarkov Model,HMM)、条件随机场模型(Conditional Random Fields,CRF)以及基于最大熵模型(Maximum Entropy Model,MaxEnt)等,此类分词方法分词性能稳定。通过利用不同的统计模型,统计近邻字符出现的次数,通过计算近邻字符出现的频率高低,进而判断能否组成词语。该方法可在分词过程中消除词语的歧义,更好的分析上下文完成生词的识别。此种分词方法可与词典分词方法结合使用完成分词,进而提升分词的效率。
(3)基于语义的分词方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110714891.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置