[发明专利]一种基于深度学习的文本相似度检测方法在审

专利信息
申请号: 202110640512.4 申请日: 2021-06-08
公开(公告)号: CN113486645A 公开(公告)日: 2021-10-08
发明(设计)人: 杨鹏;田杨静;戈妍妍;魏仕佳 申请(专利权)人: 浙江华巽科技有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/30;G06F40/126;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 杜静静
地址: 317609 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 文本 相似 检测 方法
【说明书】:

发明公开了一种基于深度学习的文本相似度检测方法,该方法能够基于深度学习,细粒度地比较目标文本与待测文本的相似度。本发明首先利用XLNet模型获得文本的词向量表示,然后在此基础上使用BiLSTM模型学习词语的双向依赖以获得基于句粒度的文本表示矩阵;同时,在词嵌入阶段引入对抗训练,以增强模型的鲁棒性;其次,利用自注意力层提取不同句子对文本表示的贡献度,生成文本的深层语义特征;最后,融合目标文本与相似文本的深层文本表示矩阵得到交互矩阵,并利用卷积神经网络对特征进行抽取,实现基于句粒度的文本相似度判定。本发明从句粒度对文本建模,可以挖掘文本之间的深层语义特征,提高文本相似度判定的准确性。

技术领域

本发明涉及一种检测方法,具体涉及一种基于深度学习的文本相似度检测方法,属于互联网与人工智能技术领域。

背景技术

随着互联网技术的不断推广和人们参与时事积极性的提高,自媒体模式得到了快速发展。但是,自媒体平台审查能力欠缺以及创作者自律性不足导致自媒体行业畸形发展,自媒体作品抄袭现象时有发生。为了有效地对这些文本进行深入地挖掘和利用,很多学者针对文本相似度的计算提出不同的解决策略。传统方法往往采取对文本建模,进而比较提取的文本特征得到文本相似度。但是由于传统方法只考虑文本的浅层信息进行相似度计算,容易造成准确率难以提高的问题。随着深度学习技术在自然语言处理领域的发展,采用文本表层信息和语义信息相结合方式对文本进行建模,可以增强文本的表征信息,为后续文本相似度检测的计算提供基础。

但是,基于深度学习方法也存在某些问题。首先,传统方法大多使用Word2Vec模型得到词语的向量表示,但是Word2Vec模型基于大量语料库训练得到的是静态的词向量表示,无法针对不同文本中词语所处的上下文而进行修正,难以解决一词多义问题,导致得到的词向量对词语的语义特征表示不精确,最终检测结果精确度不高。然后,文本从句粒度对文本建模,常常是将不同句子的向量表示进行整合得到文本表示矩阵。这样的做法无法突出文本中不同句子的重要程度,缺乏对句子之间信息的考虑,导致文本建模精度不高,会影响到文本相似度检测的准确度。最后,对于文本抄袭的种类很多,例如近义词替换,但是常见的数据集无法包含不同的抄袭种类,会导致模型检测的准确度不高,模型的泛化能力不强。针对以上问题,亟需设计新的模型架构,以便有效地检测目标文本与待测文本的深层语义相似度。

发明内容

本发明正是针对现有技术中存在的问题,提供一种基于深度学习的文本相似度检测方法,该技术方案首先利用XLNet模型得到文本的词向量表示,然后使用BiLSTM捕获句子中词语的双向依赖,得到句向量表示。通过对基于句粒度的文本表示进行分析,得到两文本基于句粒度的相似度值。

为了实现上述目的,本发明的技术方案如下,一种基于深度学习的文本相似度检测方法,所述方法包括以下步骤:

步骤1,构建基于句粒度的文本表示矩阵,首先利用XLNet预训练模型得到单词的动态词向量表示,然后利用BiLSTM模型获取词语的上下文语义,构建基于句粒度的文本表示矩阵;

步骤2,对抗训练,在原训练集的基础上,文本对抗训练的加入可以添加对抗样本,增强模型的鲁棒性;

步骤3,自注意力模型的引入,由于基于句粒度的文本表示矩阵忽略句子之间的关系,故通过自注意力模型可以对文本中句子的贡献赋予不同的权重,学习到文本的深层语义;

步骤4,文本相似度判定,文本相似度判定模块主要将得到的文本交互矩阵输入卷积神经网络,进行特征抽取,将对文本相似度判定没有帮助的特征进行去除,最后利用softmax函数得到文本相似度值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江华巽科技有限公司,未经浙江华巽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110640512.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top