[发明专利]一种自然语言隐写分析方法在审
| 申请号: | 202111330766.2 | 申请日: | 2021-11-11 |
| 公开(公告)号: | CN114048314A | 公开(公告)日: | 2022-02-15 |
| 发明(设计)人: | 向凌云;刘宇航;欧成富;游卉擎;杨双辉;王蓉 | 申请(专利权)人: | 长沙理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 北京迎硕知识产权代理事务所(普通合伙) 11512 | 代理人: | 钱扬保;张群峰 |
| 地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自然语言 分析 方法 | ||
本发明公开了一种自然语言隐写分析方法,包括以下步骤:步骤1.利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2.获取初始文本节点特征和初始单词节点特征;步骤3.基于图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4.将得到的最终待分析文本节点表示向量输入训练好的联合分类器,实现对隐写文本、正常生成文本和正常自然文本的判定。
技术领域
本发明涉及文本隐写分析和自然语言处理领域,尤其涉及一种基于BERT和图注意力神经网络的自然语言隐写分析方法。
背景技术
隐写术是一种将秘密信息嵌入公共载体中(如图像、文本、音频等),使其不被察觉,以达到隐藏秘密信息目的的安全技术。文本作为人们日常生活中最常见且使用最频繁的信息载体,利用其来进行信息隐藏有着十分重要的意义。因此,文本隐写术引起了研究者的广泛关注。近年来,随着深度学习在自然语言处理中的高速发展,一系列如机器翻译、对话系统等文本生成相关的研究取得了重大的进步。在此基础上,使程序能够自动生成质量高且携带秘密信息的文本的生成式文本隐写术成为了一个研究热点。生成式文本隐写术与传统隐写方法不同的是,它能够在携带秘密信息的同时生成高质量、具有可读性的文本内容,不需要像传统隐写方法一样对给定的文本进行修改,以嵌入秘密信息。
隐写分析是以检测目标文本中是否隐藏秘密信息为目的的技术。早期的隐写分析方法主要从目标文本中提取人工设计的特征,如词频、上下文相似度等。然而,这些方法只能针对使用特定隐写术生成的隐写文本,对于基于深度学习的生成式隐写术生成的隐写文本,由于其与自然文本高度相似,文本质量有大幅度提升,传统隐写分析方法不能起到有效的作用。目前,关于生成式隐写文本的隐写分析研究大多都是将隐写文本的检测看做隐写文本和正常生成文本(未嵌入秘密信息的生成文本)的二分类问题,或是隐写文本和正常自然文本(正常的人工书写的文本)的二分类问题。未有过将三类文本组合在一起进行隐写分析的研究。但现实生活中,含有秘密信息的隐写文本、正常的自然文本和用于某些特殊场景自动生成的未含有秘密信息的文本是共存的,因此,从正常自然文本和正常生成文本中识别出来生成式隐写文本更有应用价值。
为此,本发明提出了一种自然语言隐写分析方法,不仅能够准确地识别隐写文本、正常生成文本和正常自然文本,且提高了隐写文本的检测性能。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种自然语言隐写分析方法,包括以下步骤:步骤1.利用单词对相关度、单词与文本关联度,将数据集构建为一个以文本和单词为节点的异构图;步骤2.获取初始文本节点和单词节点特征;步骤3.基于图注意力神经网络获得蕴含隐写分析特征的节点表示向量;步骤4.将得到的最终待分析文本节点表示向量输入到训练好的联合分类器,实现对隐写文本、正常生成文本和正常自然文本的判定。
所述的自然语言隐写分析方法,其中步骤1包括:针对数据集中所有有标签和无标签文本,构建一个包括有大量文本节点和单词节点的大型异构文本图,其中,每个文本节点代表一个文本,所述文本包括待分析文本,隐写文本、正常生成文本和正常自然文本;每个单词节点代表一个单词,所述单词是从上述文本中拆分出的所有单词中去重后得到的单词;所述构造的文本图用公式1表示如下:g=(ν,ε),其中v表示文本图中的节点,ε表示文本图中的边;v包括所有文本节点ndoc为数据集中文本数量,其中包括待分析文本、隐写文本、正常生成文本和正常自然文本;和单词节点nword表示数据集中单词数量(去重),即ν=T∪W;边的集合ε表示所有节点包括单词节点与文本节点之间的关系,当单词与文本之间的关联度高,则为该单词节点与文本节点之间构建一条边,否则二者之间不构建边;当单词节点与单词节点之间单词对相关度高,则两个单词节点之间构建一条边,否则二者之间不构建边;文本节点与文本节点之间均不构建边。
所述的自然语言隐写分析方法,其中步骤1还包括计算单词与文本的关联度,单词wi和文本tj的关联度计算方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111330766.2/2.html,转载请声明来源钻瓜专利网。





