[发明专利]文本匹配方法及装置有效
申请号: | 201910374177.0 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110287396B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 肖朝军;钟皓曦;曾国洋;刘知远 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙;苗晓静 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 | ||
本发明实施例提供一种文本匹配方法及装置,其中方法包括对于文本集合中的任意一个文本,根据文本中的各词汇在文本中的词频以及文本中的各词汇在文本集合中的逆文本频率,获得文本的语法表示;将文本输入至预先训练的深度双向转换编码器中,输出文本的语义表示;将文本的语法表示和语义表示组合为文本的文本特征;从文本集合中选择待匹配文本,计算待匹配文本的文本特征与文本集合中其他文本的文本特征间的欧氏距离,将欧氏距离最近的k个其他文本作为与待匹配文本类似的文本。本发明实施例将语义信息和语法信息进行了综合的考虑和计算,使得本发明实施例相比传递方法在文本匹配上具有更好的效果。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及文本匹配方法及装置。
背景技术
信息检索,是在日常生活中最为常用的一种自然语言处理技术,也是人类进入互联网时代中最为重要的技术之一。信息检索的根本目的是从大量的文本信息中,找到最关心也是和询问文本最为相关的信息。信息检索一项最重要的技术应用就是搜索引擎,互联网中最为常见的搜索引擎是从大量的网页文本信息中,找到与输入的搜索文本相关的网页并返回给用户。这里的相关在更多意义上是基于词语词性用法的相关,即认为一份文档是和输入的询问相关的往往是在这份文档包含了所询问的句子,或者这份文档的内容和询问的句子在用词上有交集的时候,会认为这篇文档是与询问的相关的。这样的一种方法被广泛应用到了各种各样的搜索引擎中,如搜狗、必应、幂律等搜索引擎中都使用到了信息检索的技术。
除开搜索引擎,信息检索的技术还被广泛应用在其他自然语言处理的下游任务中,例如推荐系统、问答系统等。在推荐系统中,可以把用户已有的操作行为当作所询问的输入特征,基于此去数据库中寻找相关的推荐的条目;而对于问答系统,则能够更为直接的应用信息检索的技术,把询问的问题输入给信息检索的系统,而信息检索系统的目的就是要从海量的知识库中找到最能匹配问题的答案。
除此之外,在法律领域有一个重要的课题便是类案匹配。所谓类案匹配,是想从海量的案件数据中,根据输入的事实描述,找到与输入事实最为相近的案件描述。类案匹配的重要意义在于如果能够准确而快速的找到与事实描述相类似的案件,那么对于有法学经验的人来说,他们可以在判案的时候充分参考已有的判例来避免一案多判的情况;而对于没有法学知识的人来说,历史上类似的相似的案件也能够为他们提供一个有力的参考。
因此,将信息检索的技术应用到类案匹配中是一个非常重要的解决方案。但是,传统的信息检索技术例如搜索引擎始终的信息检索的技术始终是基于文字匹配的方法,这样的方法并不能够应用到类案匹配之中,因为类案匹配更多时候是想要匹配输入的案件描述和已有的案件在事实层面上的类似性。这样的匹配更多是基于语义的匹配而非词语的匹配,所以传统的信息检索方法并不能够直接应用到类案匹配的问题上,需要提出一个基于语义匹配的信息检索的方法,以此来在类案匹配上达到更好的效果。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本匹配方法及装置。
第一个方面,本发明实施例提供一种文本匹配方法,包括:
对于文本集合中的任意一个文本,根据所述文本中的各词汇在所述文本中的词频以及所述文本中的各词汇在文本集合中的逆文本频率,获得所述文本的语法表示;将所述文本输入至预先训练的深度双向转换编码器中,输出所述文本的语义表示;将所述文本的语法表示和语义表示组合为所述文本的文本特征;
从所述文本集合中选择待匹配文本,计算所述待匹配文本的文本特征与所述文本集合中其他文本的文本特征间的欧氏距离,将欧氏距离最近的k个其他文本作为与所述待匹配的文本类似的文本;其中,k为正整数。
第二个方面,本发明实施例提供一种文本匹配装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910374177.0/2.html,转载请声明来源钻瓜专利网。