[发明专利]文本匹配方法、装置、电子设备及计算机可读存储介质在审

申请号：	202011272435.3	申请日：	2020-11-13
公开（公告）号：	CN112380832A	公开（公告）日：	2021-02-19
发明（设计）人：	李寿山;殷亚珏;王晶晶;张民;周国栋	申请（专利权）人：	苏州大学
主分类号：	G06F40/194	分类号：	G06F40/194
代理公司：	北京知鲲知识产权代理事务所(普通合伙) 11866	代理人：	闫聪彦
地址：	215006 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本匹配方法装置电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本匹配方法、装置、电子设备及存储介质，包括：获取第一文本和第二文本，第一文本和第二文本具有相同的文本结构，提取与第一文本中多个版块一一对应的多个第一单视角匹配特征；提取与第二文本中多个版块一一对应的多个第二单视角匹配特征，将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接，得到多个拼接后的单视角匹配特征；融合多个拼接后的单视角匹配特征得到第一文本和第二文本的多视角匹配特征；利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率；通过多视角匹配概率确定第一文本与第二文本是否匹配。由于多视角匹配特征综合考虑到了各个单视角特征的信息，能够大幅提升文本匹配的准确率。

技术领域

本发明涉及人工智能领域，具体涉及一种文本匹配方法、装置、电子设备及计算机可读存储介质。

背景技术

自然语言处理(NLP)具有广泛的应用场景，比如用于网页检索、医疗案例检索、专利匹配以及论文匹配等等。

传统的专利匹配、论文匹配等文本匹配大多采用基于规则模板或特征构建的方式，也有一些研究者致力于采用机器学习的方法来对专利、论文等进行匹配，不过现有机器学习方法只使用了局部的信息，或者仅是对文本表征学习进行改进，其使用的特征对于句子层面或许是足够的，而对于专利、论文这种基于文档层面的语料是很难捕获到充足的信息的，这将会导致专利、论文的匹配准确率低。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中匹配准确率低的缺陷，从而提供一种文本匹配方法，包括如下步骤：

获取第一文本和第二文本，所述第一文本和所述第二文本具有相同的文本结构，所述文本结构中包括用于写入不同规定内容类型的多个版块；

提取与所述第一文本中多个版块一一对应的多个第一单视角匹配特征；提取与所述第二文本中多个版块一一对应的多个第二单视角匹配特征，其中，所述第一文本中多个版块与所述第二文本中多个版块一一对应；

将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接，得到多个拼接后的单视角匹配特征；

融合多个拼接后的单视角匹配特征得到所述第一文本和所述第二文本的多视角匹配特征；

利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率；

通过所述多视角匹配概率确定所述第一文本与所述第二文本是否匹配。

优选地，所述利用所述多视角匹配特征计算所述第一文本与所述第二文本的多视角匹配概率，包括：

将所述多视角匹配特征输入到预先训练得到的网络模型中，利用所述网络模型计算得到所述第一文本与所述第二文本的多视角匹配概率，其中，所述网络模型的目标函数是基于所述拼接后的单视角匹配特征的代价函数和基于所述多视角匹配特征的代价函数组成。

优选地，还包括：

将多个拼接后的单视角匹配特征输入到所述网络模型中，利用所述网络模型基于所述多个拼接后的单视角匹配特征计算得到所述第一文本与所述第二文本的单视角匹配概率；