[发明专利]一种分词检索方法及系统有效
申请号: | 202111512996.0 | 申请日: | 2021-12-11 |
公开(公告)号: | CN114153949B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 付雪林;王涛;孙思遥;邓应来;王启超;吴邱思;安重阳;韩啸;张葳;曾明泉;唐海霞;赵鑫;刘成书 | 申请(专利权)人: | 北京信立方科技发展股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 张倚嘉 |
地址: | 100032 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 检索 方法 系统 | ||
本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。
技术领域
本申请涉及检索技术领域,尤其是涉及一种分词检索方法及系统。
背景技术
随着互联网技术的不断发展,在仪器信息方面搭建了各式各样的平台,使得用户可以通过平台检索到关于仪器的各种信息,包括垂直领域的咨询、厂商、仪器、社区、资料、网络讲堂、仪课通、招聘、耗材、试剂、行业应用、专题、市场研究、会展栏目。
传统的仪器信息平台中,一般是通过搭建语义模板的方式对用户搜索词进行语法依存关系的配置,以生成不同的检索内容排序。
仪器信息平台本身拥有数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的特点,在进行检索过程中若想要达到精准命中的目的,就需要极大的成本不断的维护和更新语义模板,特别是在用户体量不断增加的当下,越来越多的用户在跨领域下搜索,进一步的增加了仪器信息平台的维护成本。而仪器信息平台自身的盈利能力受限于其所服务的市场,并不能补足成本日渐增加的仪器信息平台的需求,这导致了传统仪器信息平台的维护力度低,检索命中率下降。
发明内容
为了降低仪器信息平台的检索成本,本申请目的是提供一种分词检索方法及系统。
本申请的上述申请目的是通过以下技术方案得以实现的:
第一方面,本申请提供一种分词检索方法,应用于单领域信息检索平台,所述方法包括:
接收用户输入的检索词;
对所述检索词进行单字分词;
分别计算每一语料文档的单字相关度;
将单字相关度进行叠加生成语料文档的相关度得分;
依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。
通过采用上述技术方案,在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。
进一步的,所述方法还包括:
依据所述相关度得分对所述语料文档进行排序后,依据排名顺序,获取预设数量的语料文档生成所述第一检索结果。
通过采用上述技术方案,在数据结构类型多的情况下,即栏目类型多时,预设数量的限定降低了单次输出的语料文档数量,可以辅助实现多个栏目的语料文档同步显示。
进一步的,分别计算每一语料文档的单字相关度的方法包括:
计算单字qi的逆向文档频率idf(qi),计算所述单字qi在语料文档D中的词频tf(qi,D),tf(qi,D)=((k+1)*tf)/(k*(1-b+b*L)+tf);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信立方科技发展股份有限公司,未经北京信立方科技发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512996.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混合驱动的可调角冷却塔系统
- 下一篇:一种全功能碳滑板冲击试验机