[发明专利]基于用户查询词进行文本搜索方法及装置在审
申请号: | 201910544979.1 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110263127A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 王晓珂;潘希阳 | 申请(专利权)人: | 北京创鑫旅程网络技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李志新;李英艳 |
地址: | 100015 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 文本搜索 用户查询词 自然语言规则 自然语言 自然语言模型 句法结构 命名实体 输入参数 预先确定 输出 词性 调用 筛选 | ||
本发明实施例涉及基于用户查询词进行文本搜索方法,基于用户查询词进行文本搜索方法包括:对用户查询词进行分词,得到分词片段;调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;利用所述第一核心分词片段进行文本搜索。通过本发明实施例,可提高文本搜索精度。
技术领域
本发明实施例涉及信息处理领域,特别地是涉及一种基于用户查询词进行文本搜索方法及装置。
背景技术
目前,搜索系统主要根据用户输入的用户查询词进行分词,然后用得到的分词片段随机匹配,倒排索引库,进行文档搜索匹配,将匹配到的文档按照排序返回给用户,由于分词片段随机匹配去搜索匹配文档,在此过程中,会出现不太相关的文档被检索并展示或者分词片段错误的匹配后而导致搜索出大量的无关文档淹没了有用文档的现象。
发明内容
为了解决现有技术中存在的上述问题,本发明实施例提供了基于用户查询词进行文本搜索方法及装置。
第一方面,本发明实施例提供一种基于用户查询词进行文本搜索方法,该基于用户查询词进行文本搜索方法包括:对用户查询词进行分词,得到分词片段;调用预先设定的自然语言规则模型,所述自然语言规则模型基于自然语言构成属性中的词性、句法结构和命名实体中的至少一个预先确定,且输出包括核心分词片段或非核心分词片段;将所述分词片段作为所述自然语言规则模型的输入参数,并依据所述自然语言模型的输出对所述分词片段进行筛选,得到第一核心分词片段;利用所述第一核心分词片段进行文本搜索。
在一实施例中,所述方法还包括:调用预先训练的训练模型,所述训练模型基于所述自然语言构成属性中的词性、词长、句法结构和命名实体中的至少一个预先确定,且输出包括用于确定所述分词片段成为核心分词片段的权重值;将所述分词片段作为所述训练模型的输入参数,并依据所述训练模型的输出确定所述分词片段成为核心分词片段的权重值;依据所述分词片段成为核心分词片段的权重值,确定第二核心分词片段,所述第二核心分词片段中包括所述第一核心分词片段;利用所述第二核心分词片段进行文本搜索。
在一实施例中,所述方法还包括:确认所述第一核心分词片段的数量未达到预设数量阈值;所述第二核心分词片段的数量为所述预设数量阈值。
在一实施例中,所述方法还包括:采用如下方式预先确定所述命名实体:基于预先训练的命名实体模型和预设的命名实体匹配规则分别对每个所述分词片段进行命名实体识别;在所述命名实体模型和所述命名实体匹配规则二者之一识别得到命名实体之际,将识别得到的命名实体确定为所述分词片段的命名实体;在所述命名实体模型和所述命名实体匹配规则均识别得到命名实体之际,将所述命名实体匹配规则识别得到的命名实体确定为所述分词片段的命名实体。
在一实施例中,所述方法还包括:采用如下方式预先确定所述词性:
基于预先训练的词性标注模型和预设的词性匹配规则对每个所述分词片段进行词性识别;在所述词性标注模型和所述词性匹配规则二者之一识别得到词性之际,将识别得到的词性确定为所述分词片段的词性;在所述词性标注模型和所述词性匹配规则均识别得到词性之际,将所述词性匹配规则识别得到的词性确定为所述分词片段的词性。
在一实施例中,所述方法还包括:采用如下方式预先确定所述句法结构:基于预先训练的句法结构模型和预设的句法结构匹配规则对每个所述分词片段进行句法结构识别;在所述句法结构模型和所述句法结构匹配规则二者之一识别得到句法结构之际,将识别得到的词性确定为所述分词片段的句法结构;在所述句法结构模型和所述句法结构匹配规则均识别得到句法结构之际,将所述句法结构匹配规则的识别结果确定为所述分词片段的句法结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京创鑫旅程网络技术有限公司,未经北京创鑫旅程网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910544979.1/2.html,转载请声明来源钻瓜专利网。