[发明专利]相似文档检索方法及装置在审
申请号: | 202010543812.6 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111813930A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 毛红保 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郭亮 |
地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文档 检索 方法 装置 | ||
本发明实施例提供一种相似文档检索方法及装置,该方法包括:基于词频搜索模型搜索得到第一文档集合及每个文档的相似度,并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度;将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加,按相似度从大到小,选取预设数量的文档,得到候选文档集合;根据所述候选文档集合,确定检索结果。该方法同时考虑词频搜索方法和文档向量化搜索方法的结果,并通过相似度进行结合,从而在一定程度上消除语义惯性,获取多维度的检索结果,避免了单一模型获得的检索结果的局限性。
技术领域
本发明涉及自然语言分析领域,尤其涉及一种相似文档检索方法及装置。
背景技术
文档检索即给定一篇待检索文档,从海量文档库中自动检索出与该文档内容最相似的文档。文档检索具有广泛的应用场景,在翻译领域,当接收到一篇待翻译的稿件时,需要从历史稿件库中检索出与该稿件主题内容相似的文档,以快速匹配到合适的译员,从而提高翻译的质量和效率。
传统的文档检索方法以关键词相关的方法为主,如TF-IDF(term frequency–inverse document frequency,词频-逆文件频率)等,该类方法能满足大多数情况下的需求,但有一个缺陷是忽略了词间顺序。例如,若一篇文档中含有大量“机器学习”这样的短语,检索时会拆分为“机器”和“学习”两个关键词进行检索;若将文档中的“机器学习”全部替换为“学习机器”,检索的结果却不会受到影响。为了解决这类问题,基于深度学习的文档语义表示被应用于文档检索中,如文档向量化模型Doc2vec。文档向量化模型对词序敏感,能较好地从语义层面表征文档,但是在实际应用过程中可能存在语义惯性。例如,需要检索与“摩托车生产”匹配度最高的前5篇文档,而文档库中含有大量“摩托车销售”及“汽车生产”相关的文档,此时若采用语义表示方法进行检索,很可能检索到的前5篇文档都是“汽车生产”相关的。这是因为语义表示方法对文档全局层面的语义更敏感,而不是突出某个关键词。但是用户很可能希望前5篇文档既有“汽车生产”方面的,也有“摩托车销售”方面的。可以看出,基于目前方法获得的检索结果往往具有局限性,均无法得到准确的搜索结果。
发明内容
为了解决上述问题,本发明实施例提供一种相似文档检索方法及装置。
第一方面,本发明实施例提供一种相似文档检索方法,包括:基于词频搜索模型搜索得到第一文档集合及每个文档的相似度,并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度;将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加,按相似度从大到小,选取预设数量的文档,得到所述候选文档集合;根据候选文档集合,确定检索结果。
进一步地,所述根据所述候选文档集合,确定检索结果,包括:根据所述第二文档集合,按相似度从大到小,选取第一预设比例的文档,作为第三文档集合;使用所述候选文档集合中的相似度,更新所述第三文档集合中相同文档的相似度,从第三文档集合中,按相似度大小,选取第二预设比例的文档作为检索结果。
进一步地,所述将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加之前,还包括:对所述第一文档集合和所述第二文档集合中的文档相似度,分别进行归一化处理。
进一步地,所述第一文档集合、所述第二文档集合以及所述候选文档集合中文档数量保持一致。
进一步地,所述词频搜索模型为TF-IDF模型。
进一步地,所述文档向量化模型为Doc2vec模型。
进一步地,所述第一预设比例为2/3,所述第二预设比例为1/2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010543812.6/2.html,转载请声明来源钻瓜专利网。