[发明专利]一种文本检索方法及装置在审

申请号：	201711043608.2	申请日：	2017-10-31
公开（公告）号：	CN110019668A	公开（公告）日：	2019-07-16
发明（设计）人：	戴威	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F17/27
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词语词语集合检索文本词向量关键词集合文本检索文本相似度检索检索结果算法计算分词预设排序输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本检索方法及装置。方法包括：对检索文本进行分词，获得检索词语集合；对于检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；确定关键词集合中各个词语的词向量；获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；计算关键词集合中每一个词语的词向量分别与至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度；根据相似度将至少一个待检索文本进行排序输出。本发明提高了检索结果的准确性。

技术领域

本发明涉及文本检索技术领域，尤其涉及一种文本检索方法及装置。

背景技术

法律文书类案推送是指输入一篇法律文书，采用一定的算法获得一系列与该输入的法律文书相似的其他文书，借此以快速查找到与当前输入的法律文书相关的历史文书(也称历史案件)。

然而目前采用的算法一般是基于一些筛选规则，例如案由相同、适用法条一致等，来检索出与输入的法律文书相似的其他文书，这种检索方式得到的检索结果往往准确性较差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置，技术方案如下：

一种文本检索方法，所述方法包括：

对检索文本进行分词，获得检索词语集合；

对于所述检索词语集合中的每个词语，分别采用TextRank算法计算每个词语的TextRank值；

依据各个词语的TextRank值，选取预设数量的词语作为关键词集合；

确定所述关键词集合中各个词语的词向量；