[发明专利]一种中文超短文本的水印嵌入和提取方法有效
申请号: | 201210148620.0 | 申请日: | 2012-05-15 |
公开(公告)号: | CN102682248A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 何路;房鼎益;陈晓江;谢碧清 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F21/24 | 分类号: | G06F21/24;G06F17/22 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 超短 文本 水印 嵌入 提取 方法 | ||
技术领域
本发明涉及自然语言信息隐藏技术领域,具体涉及一种中文超短文本的水印嵌入和提取方法。
背景技术
随着计算机网络的快速发展和普及,数字著作在因特网中扮演的角色也越来越重要,它将人们引入了一个崭新的世界。对于数字著作而言,数字化后的数据显然比传统时代的数据更具优势和吸引力,比如便于编辑、储存、发布和共享。由于对数字信息的复制非常容易,而且所得复制品和原件完全相同,因此有恶意的个人或团体有可能在没有得到作品所有者许可的情况下复制、窜改、传播有版权的内容,甚至非法用作商业用处,严重侵犯了作者及版权所有者的利益,并且导致了越来越多的版权纠纷。
超短文本是指字数在80字至500字的文本文档,例如通讯稿、微博、点评等。这些超短文本被人们在网络中使用的频率越来越高,使用范围也越来越广。例如,网络中有这样一些点评网站,它们致力于为网友提供餐饮、购物、休闲娱乐及生活服务等领域的商户信息、消费优惠以及发布消费评价的互动平台。这些点评网站中,几乎所有的信息都来源于大众,每个人都可以自由发表对商家的评论,好则誉之,差则贬之,每个人都可以向大家分享自己的消费心得,同时分享大家集体的智慧。为维持平台的核心竞争力,就必须保持点评数据的真实准确,具有参考价值,以及点评的客观公正。然而,这些网站中的某些核心点评,可能会被其他网站盗用。如果没有办法对用户发表的内容进行版权归属的判定,很容易造成点评的版权纠纷,甚至会承担了侵权的连带责任。目前,越来越多的网站开通了微博功能,使得用户在网络中发表言论越来越自由,而用户发表的言论也很容易被其他人复制甚至歪曲,如何没有办法来判定这些微博的版权以及是否被人修改歪曲,很容易造成版权纠纷,甚至会带来法律问题。除了以上点评和微博的举例,超短文本还在网络中其他的地方广泛用到,对其版权处理不当,可能会到来巨大的损失,因而,如何有效地保护这些超短文本的版权成为了一个迫在眉睫的现实问题。
自然语言信息隐藏使用自然语言作为隐藏秘密信息的载体,利用保留语义的变换等方法改写文字,在载体中嵌入秘密信息。它作为文本信息保护的一种重要方法,越来越受到人们的关注。但是,现有的自然语言信息隐藏技术对载体文本的容量有着相当高的要求,而在进行秘密信息嵌入时,根据载体文本的篇幅长短以及行文风格不同,文本能够为信息隐藏技术提供的隐藏空间也不一样。如在版权保护领域,通讯稿、微博、评论、点评等这些超短文本,能够提供的容量非常有限,这就使得在这些超短文本当中嵌入版权信息变得不太现实。所以如何在超短文本当中最大量的嵌入版权信息,具有十分重要的意义。
发明内容
本发明的目的在于,提供一种中文超短文本的水印嵌入和提取方法,该方法在对超短文本进行版权信息保护时,在不影响原内容的价值和使用,并且能够不引起人们的注意的情况下,在超短文本内尽可能嵌入最大的秘密信息。
为了实现上述任务,本发明采用了如下的技术解决方案:
一种中文超短文本的水印嵌入和提取方法,包括嵌入和提取两个过程,其特征在于,所述的嵌入过程包括嵌入单元的识别和秘密信息的嵌入两个阶段,提取过程包括嵌入单元的识别、秘密信息的提取和水印验证三个阶段;其中,两个过程中的嵌入单元的识别操作相同。
所述的嵌入单元的识别包括以下几个步骤:
步骤1:文本繁简体转换:
待嵌密的文本中可能存在繁体字,而繁体字会影响到后续的嵌入单元识别,因而在处理之前需先根据繁简对照表将文本中的繁体字转换为相对应的简体字。
步骤2:以文本中的标点符号作为分界符将文本划分成多个分句,同时对每一个分句进行分词,并将小句内容和分词后的结果记录下来。
步骤3:取出一个小句中的一个词语,判断其是否位于专有名词词典中。如果在词典中,则继续步骤3中的下一个词语,否则,转至步骤4。
步骤4:判断词语是否位于同义词词典当中,如果在,则将此词语的信息记录在准嵌入单元集合当中;如果不在,转至步骤5。
步骤5:判断词语是否位于高频词词典当中,如果在,则将此词语的信息记录在准嵌入单元集合当中;如果不在,转回步骤3。
步骤6:嵌入单元预替换:
嵌入单元的预替换是在分句的基础上进行的,当一个分句中的所有词语都进行完准嵌入单元的识别后,在分句上对分句中所有的准嵌入单元进行预替换;通过采用中国专利201110122787.5中的步骤,将那些替换前后分词与原句一样的准嵌入单元确认为理想嵌入单元,并将其记录至嵌入单元集合当中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210148620.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机电致发光器件及其制备方法
- 下一篇:一种测试高纯管道吹扫效果的方法