[发明专利]基于Bert模型的文本相似度计算方法和装置在审

申请号：	202010151330.6	申请日：	2020-03-06
公开（公告）号：	CN111368037A	公开（公告）日：	2020-07-03
发明（设计）人：	周宸;骆加维;周宝;陈远旭	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/284;G06F40/211;G06N3/04
代理公司：	北京汇思诚业知识产权代理有限公司 11444	代理人：	冯晓平
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 bert 模型文本相似计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Bert模型的文本相似度计算方法、装置、计算机设备及存储介质，涉及人工智能技术领域。该基于Bert模型的文本相似度计算方法包括：确定待比对文本句段；采用词频词现率算法，基于待比对文本句段得到第一文本矩阵；通过预先训练的Bert模型，基于待比对文本句段得到第二文本矩阵；将第一文本矩阵和第二文本矩阵进行拼接，得到拼接文本矩阵；对拼接文本矩阵进行特征优化，得到目标文本矩阵；采用预设的相似度算法，根据目标文本矩阵得到待比对文本句段间的文本相似度。采用该基于Bert模型的文本相似度计算方法能够提高文本相似度计算的准确度。

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种基于Bert模型的文本相似度计算方法和装置。

【背景技术】

文本相似度计算是自然语言处理领域的分支之一。目前文本相似度预测、计算上仍存在语义识别能力较弱、字词与文本相关性不强等问题。文本相似度计算的准确度不能达到用户的期望。

【发明内容】

有鉴于此，本发明实施例提供了一种基于Bert模型的文本相似度计算方法、装置、计算机设备及存储介质，用以解决目前文本相似度计算的准确度较低的问题。

第一方面，本发明实施例提供了一种基于Bert模型的文本相似度计算方法，包括：

确定待比对文本句段；

采用词频词现率算法，基于所述待比对文本句段得到第一文本矩阵；

通过预先训练的Bert模型，基于所述待比对文本句段得到第二文本矩阵；

将所述第一文本矩阵和所述第二文本矩阵进行拼接，得到拼接文本矩阵；

对所述拼接文本矩阵进行特征优化，得到目标文本矩阵；